LLaVA

0. 准备

一张 3090 显卡

mllm_en：

文本部分使用了 llama3.2-1b-instruct
图像部分使用了 siglip-so400m-patch14-384

mllm_ch：

文本部分使用了 qwen2.5-0.5b-instruct
图像部分使用了 chinese-clip-vit-large-patch14-336px

将下载好的 mllm_en 或 mllm_ch 文件夹拖入指定目录，并将 train.sh 中的 model_name_or_path 修改为对应路径。

1. 模型结构

2. 数据来源

英文数据来自 LLaVA 的官方数据集，地址如下：
https://huggingface.co/datasets/liuhaotian/LLaVA-Pretrain
中文数据集包括：
- CogVLM-SFT-311K 数据集
  https://github.com/THUDM/CogVLM/blob/main/dataset_zh.md
- 自制数据集：基于通义 SA1B 开源数据（转换为对话形式，目前完成 100 万条）
  https://modelscope.cn/datasets/Tongyi-DataEngine/SA1B-Dense-Caption

3. 训练过程

阶段一：特征对齐预训练

由于从 CLIP 提取的特征与 word embedding 不在同一个语义表达空间，因此需要通过预训练，将 image token embedding 对齐到 text word embedding 的语义表达空间。

冻结 Vision Encoder 和 LLM 模型的权重参数，仅训练插值层 Projection W 的权重。
修改 tran.sh 中的 train_type 为 freeze_vision_and_llm。

mllm_en 预训练的损失函数：

mllm_ch 预训练的损失函数：

阶段二：端到端训练

冻结 Vision Encoder 的权重，同时更新插值层 Projection W 和 LLM 语言模型的权重。
修改 tran.sh 中的 train_type 为 freeze_vision。

mllm_en 微调的损失函数：

mllm_ch 微调的损失函数：

测试

mllm_en 的回答：

The image features a cluster of white flowers, specifically daisies, growing in a field.

mllm_ch 的回答：

白色的雏菊，花瓣展开，中心有黄色的花蕊。

模型权重

mllm_cn:链接: https://pan.baidu.com/s/1lVu9z1kWWaFxwU3qh4oqTA 提取码: nuqh
mllm_en:链接: https://pan.baidu.com/s/1WIwjOaPG_yRg7KAFGB6uTA 提取码: 66yg

4. Eval

部署本地语言模型作为评判 / 选择提取器：

git clone https://github.com/open-compass/VLMEvalKit.git
cd VLMEvalKit
pip install -e .
pip install lmdeploy openai

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
_resources		_resources
eval		eval
utils		utils
WebUI.py		WebUI.py
accelerate_multi_gpu.yaml		accelerate_multi_gpu.yaml
accelerate_one_gpu.yaml		accelerate_one_gpu.yaml
data.py		data.py
readme.md		readme.md
requirements.txt		requirements.txt
run.py		run.py
test.py		test.py
train.sh		train.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LLaVA

0. 准备

mllm_en：

mllm_ch：

1. 模型结构

2. 数据来源

3. 训练过程

阶段一：特征对齐预训练

mllm_en 预训练的损失函数：

mllm_ch 预训练的损失函数：

阶段二：端到端训练

mllm_en 微调的损失函数：

mllm_ch 微调的损失函数：

测试

mllm_en 的回答：

mllm_ch 的回答：

模型权重

4. Eval

About

Releases

Packages

Languages

Sweewangyu/s-mllm

Folders and files

Latest commit

History

Repository files navigation

LLaVA

0. 准备

mllm_en：

mllm_ch：

1. 模型结构

2. 数据来源

3. 训练过程

阶段一：特征对齐预训练

mllm_en 预训练的损失函数：

mllm_ch 预训练的损失函数：

阶段二：端到端训练

mllm_en 微调的损失函数：

mllm_ch 微调的损失函数：

测试

mllm_en 的回答：

mllm_ch 的回答：

模型权重

4. Eval

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages