代码中会把t2i、llm、mmu三部分的数据集混合起来训练 #48

sherlockma11 · 2024-10-28T12:02:44Z

iterables = { "t2i_flow": train_dataloader_t2i, "lm_flow": train_dataloader_lm, "mmu_flow": train_dataloader_mmu, }

因为设备限制，我无法训练，但依照我的理解，似乎代码中会把t2i、llm、mmu三部分的数据集混合起来训练？可能json文件不同时，里面的数据集会变，但无论怎么变，似乎还是混合起来训练。

还是说可能有时候某个数据集是空的？

The text was updated successfully, but these errors were encountered:

Sierkinhane · 2024-10-28T12:36:40Z

一直是混合起来训练的

Sierkinhane · 2024-10-28T12:37:51Z

如果是GPU显存不够的话，可以打开deepspeed zero3，或者开启一下accumulation steps

sherlockma11 · 2024-10-28T13:33:11Z

好的，谢谢大佬解惑。

Sierkinhane · 2024-10-28T14:36:45Z

欢迎给我们仓库一个star :)

jinglinglingling · 2024-10-30T06:13:56Z

一直是混合起来训练的

作者您好，请问只在stage3高质量数据上训练时，也需要t2i、llm、mmu三部分吗？看论文里好像只需要用到t2i和llava在stage3?

Sierkinhane · 2024-10-30T10:48:54Z

需要的，就是用高质量数据替换其中一个然后还是需要混合训练

jinglinglingling · 2024-11-03T05:39:19Z

需要的，就是用高质量数据替换其中一个然后还是需要混合训练

那请问基于(show-o-512x512-wo-llava-tuning) finetune的时候，如果不用 refinedweb 和 language modeling loss，性能影响会很大吗？

Sierkinhane · 2024-11-05T01:54:07Z

对于understanding benchmark应该影响比较小，实际对纯text建模应该会有影响，只是我们没有评测纯text建模能力

Provide feedback