- 一张 3090 显卡
- 文本部分使用了
llama3.2-1b-instruct
- 图像部分使用了
siglip-so400m-patch14-384
- 文本部分使用了
qwen2.5-0.5b-instruct
- 图像部分使用了
chinese-clip-vit-large-patch14-336px
将下载好的 mllm_en
或 mllm_ch
文件夹拖入指定目录,并将 train.sh
中的 model_name_or_path
修改为对应路径。
-
英文数据来自 LLaVA 的官方数据集,地址如下:
https://huggingface.co/datasets/liuhaotian/LLaVA-Pretrain -
中文数据集包括:
- CogVLM-SFT-311K 数据集
https://github.com/THUDM/CogVLM/blob/main/dataset_zh.md - 自制数据集:基于通义 SA1B 开源数据(转换为对话形式,目前完成 100 万条)
https://modelscope.cn/datasets/Tongyi-DataEngine/SA1B-Dense-Caption
- CogVLM-SFT-311K 数据集
由于从 CLIP 提取的特征与 word embedding 不在同一个语义表达空间,因此需要通过预训练,将 image token embedding 对齐到 text word embedding 的语义表达空间。
- 冻结 Vision Encoder 和 LLM 模型的权重参数,仅训练插值层
Projection W
的权重。 - 修改
tran.sh
中的train_type
为freeze_vision_and_llm
。
- 冻结 Vision Encoder 的权重,同时更新插值层
Projection W
和 LLM 语言模型的权重。 - 修改
tran.sh
中的train_type
为freeze_vision
。
The image features a cluster of white flowers, specifically daisies, growing in a field.
白色的雏菊,花瓣展开,中心有黄色的花蕊。
- mllm_cn:链接: https://pan.baidu.com/s/1lVu9z1kWWaFxwU3qh4oqTA 提取码: nuqh
- mllm_en:链接: https://pan.baidu.com/s/1WIwjOaPG_yRg7KAFGB6uTA 提取码: 66yg
- 部署本地语言模型作为评判 / 选择提取器:
git clone https://github.com/open-compass/VLMEvalKit.git cd VLMEvalKit pip install -e . pip install lmdeploy openai