核心问题:
- 在行业专业领域,我们有的知识,来源于多年积攒的业内pdf文档和ppt文档,这些都能喂给大模型吗?
- 我们将专业领域知识喂给大模型之后,是否大模型就能解答各种专业领域的问题?
- 我们希望我提个问,大模型就能结合业务系统里面的数据给我一个答案,这个能做到吗?
- 跟大模型对话用中文好用不?
- 给大模型提问,除了能出文字,还能出图形报表吗?
- 我们需要什么配置的机器?
看看这个测试项目:https://github.com/zhaoqingpu/LangChainTest
其中将本地数据导入大模型的一段代码,几乎覆盖了普通人所有的文本来源和存储格式,很显然,这是通过程序读取文件中的文本,也就是说理论上,任何存储形式的文字都是可以喂给大模型:
采取什么形式喂的?
我们把代码pull下来看看:
- 看看如上测试项目中做Embeding向量化库以及加载Embeding模型的时候使用的模型,是中文库:
我们看看另外一个项目:https://github.com/eosphoros-ai/DB-GPT/blob/main/README.zh.md
- 通过对DB-GPT的短时间实际测试,通过中文提问,中文回答,效果看起来很正常。
基于第三方的这些尝试和结论,我们不难得出结论:“我提个问,大模型能结合业务系统里面的数据给我一个答案”,当然这也需要合适的预训练以及fine-tune,不能说效果就像人一样,但是一定会带来不少惊艳。
严格来说,报表的数据是大模型出的,而报表的呈现程序是工程师事先写好的。看如下效果图:
- 先说结论:
以下配置,做fine-tune都能做,Embeding也能做,但是大于1B的模型全量训练得选双卡以上的版本。
方案一:
选特斯拉V100单卡起步,多余的显卡插槽空着,这是一个可持续提升的方案。后期只需加卡,前面的卡和主板后期沿用。
方案二:
选RTX3090双卡,可进行fine-tune和Embeding,预计能用来摸索产品路线,后期真要进行模型全量训练的时候,采购新机器,这台机器就给搞3D数字孪生的同事去用。
如下是用途效果对比参考表格:
选择 | 配置型号 | 配置要求 | 效果预计说明 |
---|---|---|---|
预算太紧张,又想喝口汤 | 丐版 | CPU:8C、MEM:32G、GPU:RTX3090(24G)单卡 | 能运行13B本地大模型,token少的时候还正常,token多的时候卡,token太多的时候卡到不出下文,不可全量训练大模型,可进行二次预训练、fine-tune |
次选 | 能用版 | CPU:8C+、MEM:32G+、GPU:RTX3090Ti(24G)双卡 | 能稳定运行13B本地大模型,可能全量训练大模型,时间可能长达数周,可进行二次预训练、fine-tune |
优选 | 可扩展版 | GPU:特斯拉V100(32G)双卡 | 能稳定运行13B本地大模型,可能全量训练大模型,并且可以增加显卡(主板买可插多卡的服务器版本),增加显卡之后2个RTX3090数周完成的训练,可进行二次预训练、fine-tune ,可以缩减到几天完成 |
优选低起步 | 可扩展版 | GPU:特斯拉V100(32G)单卡 | 能运行13B本地大模型,不可全量训练大模型,可以增加显卡(主板买可插多卡的服务器版本),增加显卡之后2个RTX3090数周完成的训练,可进行二次预训练、fine-tune ,可以缩减到几天完成 |
不可选 | 坑工程师版 | GPU:RTX4090(24G)双卡 | RTX4090不支持显卡交火,也就是不支持nvlink技术,多个显卡之间没有高速通讯方案,结果是大于一块4090还不如3090 |
如下是价格对比:
型号 | 参考价格 |
---|---|
Tesla V100 32G | ¥33899元 - ¥37999元 |
Tesla A100 40G | ¥59999元 - ¥66272元 |
RTX3090Ti 24G | ¥11999元 - ¥15900元 |
RTX3090 24G | ¥8699元 |
- DB-GPT官方给出的配置要求可以参考
- B站上某大佬给出的经验之谈
问:做预训练需要什么样的硬件配置? 答:
1. 没有2块A100起基本上做不了
2. 比较大规模的预训练,至少需要32张A100,或64张A100
- 多方查找资料汇总的结论:
- 单卡24G只能用来训练1B参数规模的模型,能运行13B参数的模型
- 双卡24G能勉强启动一部分大模型的训练,耗时可能需要数周,能爽快运行13B参数量大模型