考虑到 alpaca 和 LLaMa 的推理过程相同,且中文版仅仅是权重做了调整。我们仅测试 alpaca 中文版和 ChatGLM,结果适用英文模型。
-
硬件 11th Gen Intel(R) Core(TM) i7-11700 @ 2.50GHz
模型 生成速度(token/s) 线程数 chinese-alpaca-7b-q4 3.2 1 chinese-alpaca-7b-q4 9.2 4 chinese-alpaca-7b-q4 10 8 chinese-alpaca-7b-q4 9.8 16 -
硬件 AMD EPYC 7742 64-Core @ 2.25GHz
模型 生成速度(token/s) 线程数 chinese-alpaca-7b-q4 2.3 1 chinese-alpaca-7b-q4 7.3 4 chinese-alpaca-7b-q4 10.5 8 chinese-alpaca-7b-q4 10.7 16 chinese-alpaca-7b-q4 11.2 32 chinese-alpaca-7b-q4 12.7 64
-
硬件 11th Gen Intel(R) Core(TM) i7-11700 @ 2.50GHz
模型 生成速度(token/s) 线程数 chatglm-q4 3.2 1 chatglm-q4 8.0 4 chatglm-q4 8.9 8 chatglm-q4 7.3 16 -
硬件 AMD EPYC 7742 64-Core @ 2.25GHz
模型 生成速度(token/s) 线程数 chatglm-q4 2.4 1 chatglm-q4 5.8 4 chatglm-q4 8.9 8 chatglm-q4 9.1 16 chatglm-q4 11.6 32 chatglm-q4 11.7 64