🧩 ProactiveBench

总览

ProactiveBench 是用来评估主动智能体的基准点。其包含一个数据集，一个奖励模型和评估脚本。我们的训练集包含了三个类别的事件：编程，写作和日常生活。当前，我们的测试集包含227个事件。在数据集上训练的奖励模型在测试集上的 F1 分数达到了 0.918. 我们将提供所有用于评估主动智能体和奖励模型的脚本。

奖励模型评估

奖励模型用于评估主动智能体的性能。你可以在此(敬请期待)下载奖励模型并且通过 VLLM 等框架以搭建并提供 OpenAI 风格的 API。

在此之后，你应当修改 reward_model_scoring.py 脚本并设置地址为自己模型的地址，运行脚本

python eval/reward_model_scoring.py

在该过程之后，你将会得到你的奖励模型的最终分数。

主动智能体评估

为了检查模型性能，你需要修改文件 ./eval/script.py 以导入你的模型，同时运行脚本

python eval/script.py

该脚本会向模型输入测试数据，并且保存所有的轨迹和智能体应答于文件夹 ./eval/traces_new 下。在该过程之后，你可以运行

# 你应当在运行该脚本前修改 judge_agent_prediction.py 中的地址为自己的奖励模型
sh eval/judge_result.sh

其将让奖励模型评估来自智能体的回复是否可接受，结果将会存放于 ./eval/judged 文件夹下。

在经过奖励模型评估之后，你可以运行

sh calculate.sh

获得你的模型的最终分数。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_zh.md

README_zh.md

🧩 ProactiveBench

总览

奖励模型评估

主动智能体评估

Files

README_zh.md

Latest commit

History

README_zh.md

File metadata and controls

🧩 ProactiveBench

总览

奖励模型评估

主动智能体评估