Skip to content

Latest commit

 

History

History
67 lines (49 loc) · 2.84 KB

part7.md

File metadata and controls

67 lines (49 loc) · 2.84 KB

OpenCompass:大模型评测实战指南

学习资源

评测理论

  • 探讨了能力评测在模型发展中的重要性,以及未来评测能力维度的拓展方向。
    1. 面向未来,拓展能力维度
    2. 扎根通用能力,聚焦垂直行业
    3. 高质量中文基准
    4. 性能评测,反哺能力迭代

评测挑战

  • 讨论了大模型评测面临的主要挑战,包括全面性、成本、数据污染和鲁棒性。

评测对象

  • 涉及基座模型、对话模型、开源模型和API模型等。

评测方法

  • 结合了客观评测(如问答题和选择题)和主观评测(开放式问答)。

OpenCompass评测体系

  • CompassRank:提供模型性能排名。
  • CompassKit:一套大模型评测工具链条。
  • OpenCompass流水线:提供一站式的评测服务。

OpenCompass特点

  • 系统开源可复现,覆盖全面的能力维度,支持多种模型,实现分布式高效评测,具备多样化的评测范式和灵活的拓展性。

工具架构

  • 评测系统的工具架构,包括模型层、能力层和方法层。

评测流程

  • 包括配置、推理、评估和可视化四个主要阶段。

实战演练

  • 使用OpenCompass评测特定模型在C-Eval数据集上的性能的步骤。

    studio-conda -o internlm-base -t opencompass
    source activate opencompass
    git clone -b 0.2.4 https://github.com/open-compass/opencompass
    cd opencompass
    pip install -e .
    
    pip install -r requirements.txt
cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip
python tools/list_configs.py internlm ceval
python run.py --datasets ceval_gen --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug

数据集贡献

  • 介绍了如何在OpenCompass平台上贡献新的数据集,包括创建私人数据集和提交相关文档。

文章通过实战演练和详细的操作指南,为读者提供了OpenCompass评测系统的全面认识。如果您需要进一步的信息或对特定部分有疑问,请告知。