[llama.cpp] 最新build(6月5日)已支持Apple Silicon GPU!建议苹果用户更新 #505
ymcui
announced in
Announcements
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
llama.cpp已添加基于Metal的inference,推荐Apple Silicon(M系列芯片)用户更新,目前该改动已经合并至main branch。
个人实测,7B/13B模型加速达到50%以上。原PR内容详见:ggerganov/llama.cpp#1642
注意:目前该改动只支持
q4_0
模型,作者表示后续会陆续更新其他bit的量化算法。如何更新?
如果你已经安装了llama.cpp,请务必先clean
然后根据https://github.com/ggerganov/llama.cpp#metal-build 进行安装,例如:
如何使用?
只需在原有推理命令上加上
-ngl 1
即可将模型offload到Apple Silicon GPU上。例如:速度测试
初步在中文Alpaca-Plus-7B、Alpaca-Plus-13B、LLaMA-33B上进行了速度测试(注意,目前只支持
q4_0
加速)。测试设备:Apple M1 Max,8线程(-t 8
)。系统是macOS Ventura 13.4。33B offload到GPU后解码速度很慢,待后续补充测试。
GPU多轮解码结果出现异常(已在最新commit修复),不排除是个例,建议实际体验后选择是否启用GPU(-ngl 1
)。以下是Alpaca-Plus-7B的测试结果,通过
-seed 42
指定了随机种子。不启用:
启用:
Beta Was this translation helpful? Give feedback.
All reactions