- 视频教程:提供了Bilibili上的实战视频链接,帮助理解操作流程。OpenCompass 大模型评测实战_哔哩哔哩_bilibili
- 课程文档:GitHub上的文档提供了全面的教程内容。github.com/InternLM/Tut
- 探讨了能力评测在模型发展中的重要性,以及未来评测能力维度的拓展方向。
- 面向未来,拓展能力维度
- 扎根通用能力,聚焦垂直行业
- 高质量中文基准
- 性能评测,反哺能力迭代
- 讨论了大模型评测面临的主要挑战,包括全面性、成本、数据污染和鲁棒性。
- 涉及基座模型、对话模型、开源模型和API模型等。
- 结合了客观评测(如问答题和选择题)和主观评测(开放式问答)。
- CompassRank:提供模型性能排名。
- CompassKit:一套大模型评测工具链条。
- OpenCompass流水线:提供一站式的评测服务。
- 系统开源可复现,覆盖全面的能力维度,支持多种模型,实现分布式高效评测,具备多样化的评测范式和灵活的拓展性。
- 评测系统的工具架构,包括模型层、能力层和方法层。
- 包括配置、推理、评估和可视化四个主要阶段。
-
使用OpenCompass评测特定模型在C-Eval数据集上的性能的步骤。
studio-conda -o internlm-base -t opencompass source activate opencompass git clone -b 0.2.4 https://github.com/open-compass/opencompass cd opencompass pip install -e . pip install -r requirements.txt
cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip
python tools/list_configs.py internlm ceval
python run.py --datasets ceval_gen --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug
- 介绍了如何在OpenCompass平台上贡献新的数据集,包括创建私人数据集和提交相关文档。
文章通过实战演练和详细的操作指南,为读者提供了OpenCompass评测系统的全面认识。如果您需要进一步的信息或对特定部分有疑问,请告知。