All-Hands-AI · enyst · Dec 16, 2024 · Dec 15, 2024 · Dec 15, 2024 · Dec 15, 2024
diff --git a/docs/modules/usage/micro-agents.md b/docs/modules/usage/micro-agents.md
@@ -14,7 +14,7 @@ Micro-agents are defined in markdown files under the `openhands/agenthub/codeact
 ## Available Micro-Agents
 
 ### GitHub Agent
-**File**: `github.md`  
+**File**: `github.md`
 **Triggers**: `github`, `git`
 
 The GitHub agent specializes in GitHub API interactions and repository management. It:
@@ -30,7 +30,7 @@ Key features:
 - API-first approach for GitHub operations
 
 ### NPM Agent
-**File**: `npm.md`  
+**File**: `npm.md`
 **Triggers**: `npm`
 
 Specializes in handling npm package management with specific focus on:

diff --git a/docs/modules/usage/prompting-best-practices.md b/docs/modules/usage/prompting-best-practices.md
@@ -90,7 +90,7 @@ When working with a customized repository:
 
 Example customized prompt:
 ```
-Add a new task completion feature to src/components/TaskList.tsx following our existing component patterns. 
+Add a new task completion feature to src/components/TaskList.tsx following our existing component patterns.
 Include unit tests in tests/components/ and update the documentation in docs/features/.
 The component should use our shared styling from src/styles/components.
 ```

diff --git a/evaluation/benchmarks/EDA/run_infer.py b/evaluation/benchmarks/EDA/run_infer.py
@@ -19,6 +19,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     get_parser,
 )
 from openhands.core.logger import openhands_logger as logger
@@ -202,6 +203,8 @@ def process_instance(
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
     if llm_config is None:
         raise ValueError(f'Could not find LLM config: --llm_config {args.llm_config}')
 

diff --git a/evaluation/benchmarks/agent_bench/run_infer.py b/evaluation/benchmarks/agent_bench/run_infer.py
@@ -27,6 +27,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     parse_arguments,
 )
 from openhands.core.logger import openhands_logger as logger
@@ -307,6 +308,8 @@ def process_instance(
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
 
     if llm_config is None:
         raise ValueError(f'Could not find LLM config: --llm_config {args.llm_config}')

diff --git a/evaluation/benchmarks/aider_bench/run_infer.py b/evaluation/benchmarks/aider_bench/run_infer.py
@@ -26,6 +26,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     load_from_toml,
     parse_arguments,
 )
@@ -279,6 +280,8 @@ def process_instance(
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
 
     if llm_config is None:
         raise ValueError(f'Could not find LLM config: --llm_config {args.llm_config}')

diff --git a/evaluation/benchmarks/biocoder/run_infer.py b/evaluation/benchmarks/biocoder/run_infer.py
@@ -24,6 +24,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     parse_arguments,
 )
 from openhands.core.logger import openhands_logger as logger
@@ -328,6 +329,8 @@ def process_instance(
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
 
     if llm_config is None:
         raise ValueError(f'Could not find LLM config: --llm_config {args.llm_config}')

diff --git a/evaluation/benchmarks/bird/run_infer.py b/evaluation/benchmarks/bird/run_infer.py
@@ -27,6 +27,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     parse_arguments,
 )
 from openhands.core.logger import openhands_logger as logger
@@ -456,6 +457,8 @@ def execute_sql(db_path, sql):
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
     if llm_config is None:
         raise ValueError(f'Could not find LLM config: --llm_config {args.llm_config}')
 

diff --git a/evaluation/benchmarks/browsing_delegation/run_infer.py b/evaluation/benchmarks/browsing_delegation/run_infer.py
@@ -20,6 +20,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     parse_arguments,
 )
 from openhands.core.logger import openhands_logger as logger
@@ -142,6 +143,8 @@ def process_instance(
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
 
     if llm_config is None:
         raise ValueError(f'Could not find LLM config: --llm_config {args.llm_config}')

diff --git a/evaluation/benchmarks/commit0_bench/run_infer.py b/evaluation/benchmarks/commit0_bench/run_infer.py
@@ -27,6 +27,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     get_parser,
 )
 from openhands.core.logger import openhands_logger as logger
@@ -571,6 +572,8 @@ def commit0_setup(dataset: pd.DataFrame, repo_split: str) -> pd.DataFrame:
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
         llm_config.log_completions = True
 
     if llm_config is None:

diff --git a/evaluation/benchmarks/discoverybench/run_infer.py b/evaluation/benchmarks/discoverybench/run_infer.py
@@ -27,6 +27,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     parse_arguments,
 )
 from openhands.core.logger import openhands_logger as logger
@@ -466,6 +467,8 @@ def create_dataset(repo_location: str, split: str = 'test'):
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
     if llm_config is None:
         raise ValueError(f'Could not find LLM config: --llm_config {args.llm_config}')
 

diff --git a/evaluation/benchmarks/gaia/run_infer.py b/evaluation/benchmarks/gaia/run_infer.py
@@ -23,6 +23,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     get_parser,
 )
 from openhands.core.logger import openhands_logger as logger
@@ -238,6 +239,8 @@ def process_instance(
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
     if llm_config is None:
         raise ValueError(f'Could not find LLM config: --llm_config {args.llm_config}')
 

diff --git a/evaluation/benchmarks/gorilla/run_infer.py b/evaluation/benchmarks/gorilla/run_infer.py
@@ -21,6 +21,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     get_parser,
 )
 from openhands.core.logger import openhands_logger as logger
@@ -146,6 +147,8 @@ def process_instance(
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
     if llm_config is None:
         raise ValueError(f'Could not find LLM config: --llm_config {args.llm_config}')
 

diff --git a/evaluation/benchmarks/gpqa/run_infer.py b/evaluation/benchmarks/gpqa/run_infer.py
@@ -39,6 +39,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     get_parser,
 )
 from openhands.core.logger import openhands_logger as logger
@@ -326,6 +327,8 @@ def process_instance(
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
     if llm_config is None:
         raise ValueError(f'Could not find LLM config: --llm_config {args.llm_config}')
 

diff --git a/evaluation/benchmarks/humanevalfix/run_infer.py b/evaluation/benchmarks/humanevalfix/run_infer.py
@@ -32,6 +32,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     parse_arguments,
 )
 from openhands.core.logger import openhands_logger as logger
@@ -285,6 +286,8 @@ def process_instance(
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
     if llm_config is None:
         raise ValueError(f'Could not find LLM config: --llm_config {args.llm_config}')
 

diff --git a/evaluation/benchmarks/logic_reasoning/run_infer.py b/evaluation/benchmarks/logic_reasoning/run_infer.py
@@ -19,6 +19,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     get_parser,
 )
 from openhands.core.logger import openhands_logger as logger
@@ -288,6 +289,8 @@ def process_instance(
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
     if llm_config is None:
         raise ValueError(f'Could not find LLM config: --llm_config {args.llm_config}')
 

diff --git a/evaluation/benchmarks/miniwob/run_infer.py b/evaluation/benchmarks/miniwob/run_infer.py
@@ -23,6 +23,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     parse_arguments,
 )
 from openhands.core.logger import openhands_logger as logger
@@ -231,6 +232,8 @@ def process_instance(
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
     if llm_config is None:
         raise ValueError(f'Could not find LLM config: --llm_config {args.llm_config}')
 

diff --git a/evaluation/benchmarks/mint/run_infer.py b/evaluation/benchmarks/mint/run_infer.py
@@ -24,6 +24,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     get_parser,
 )
 from openhands.core.logger import openhands_logger as logger
@@ -279,6 +280,8 @@ def process_instance(
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
     if llm_config is None:
         raise ValueError(f'Could not find LLM config: --llm_config {args.llm_config}')
 

diff --git a/evaluation/benchmarks/ml_bench/run_infer.py b/evaluation/benchmarks/ml_bench/run_infer.py
@@ -35,6 +35,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     get_parser,
     load_app_config,
 )
@@ -292,6 +293,8 @@ def process_instance(instance: Any, metadata: EvalMetadata, reset_logger: bool =
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
     if llm_config is None:
         raise ValueError(f'Could not find LLM config: --llm_config {args.llm_config}')
 

diff --git a/evaluation/benchmarks/scienceagentbench/run_infer.py b/evaluation/benchmarks/scienceagentbench/run_infer.py
@@ -22,6 +22,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     get_parser,
 )
 from openhands.core.logger import openhands_logger as logger
@@ -272,6 +273,8 @@ def process_instance(
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
     if llm_config is None:
         raise ValueError(f'Could not find LLM config: --llm_config {args.llm_config}')
 

diff --git a/evaluation/benchmarks/swe_bench/run_infer.py b/evaluation/benchmarks/swe_bench/run_infer.py
@@ -9,7 +9,6 @@
 from datasets import load_dataset
 
 import openhands.agenthub
-
 from evaluation.utils.shared import (
     EvalException,
     EvalMetadata,
@@ -28,6 +27,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     get_parser,
 )
 from openhands.core.logger import openhands_logger as logger
@@ -76,7 +76,7 @@ def get_instruction(instance: pd.Series, metadata: EvalMetadata):
         '4. Rerun your reproduce script and confirm that the error is fixed!\n'
         '5. Think about edgecases and make sure your fix handles them as well\n'
         "Your thinking should be thorough and so it's fine if it's very long.\n"
-        )
+    )
 
     if RUN_WITH_BROWSING:
         instruction += (
@@ -490,6 +490,8 @@ def filter_dataset(dataset: pd.DataFrame, filter_column: str) -> pd.DataFrame:
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
         llm_config.log_completions = True
 
     if llm_config is None:

diff --git a/evaluation/benchmarks/toolqa/run_infer.py b/evaluation/benchmarks/toolqa/run_infer.py
@@ -20,6 +20,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     get_parser,
 )
 from openhands.core.logger import openhands_logger as logger
@@ -181,6 +182,8 @@ def process_instance(instance: Any, metadata: EvalMetadata, reset_logger: bool =
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
     if llm_config is None:
         raise ValueError(f'Could not find LLM config: --llm_config {args.llm_config}')
 

diff --git a/evaluation/benchmarks/webarena/run_infer.py b/evaluation/benchmarks/webarena/run_infer.py
@@ -21,6 +21,7 @@
     AppConfig,
     SandboxConfig,
     get_llm_config_arg,
+    get_llm_config_for_eval,
     parse_arguments,
 )
 from openhands.core.logger import openhands_logger as logger
@@ -212,6 +213,8 @@ def process_instance(
     llm_config = None
     if args.llm_config:
         llm_config = get_llm_config_arg(args.llm_config)
+    if llm_config is not None:
+        llm_config = get_llm_config_for_eval(llm_config)
     if llm_config is None:
         raise ValueError(f'Could not find LLM config: --llm_config {args.llm_config}')
 

diff --git a/openhands/agenthub/codeact_agent/codeact_agent.py b/openhands/agenthub/codeact_agent/codeact_agent.py
@@ -166,7 +166,9 @@ def get_action_message(
 
             # Add the LLM message (assistant) that initiated the tool calls
             # (overwrites any previous message with the same response_id)
-            logger.debug(f'Tool calls type: {type(assistant_msg.tool_calls)}, value: {assistant_msg.tool_calls}')
+            logger.debug(
+                f'Tool calls type: {type(assistant_msg.tool_calls)}, value: {assistant_msg.tool_calls}'
+            )
             pending_tool_call_action_messages[llm_response.id] = Message(
                 role=assistant_msg.role,
                 # tool call content SHOULD BE a string