You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
-
答:显存够可以开全fp16。
答:offload到内存 甚至固态上,能跑但仅限于能跑,比纯CPU跑快一些。
答:是用两种方法在知识库里搜一个大概的文本再把问题和参考数据一起给模型让模型回答整理,分为索引和语义分析两种。
答:不正常。rwkv在相同精度 相似参数量的情况下比glm快得多。
答:请确保已安装 GCC和 OpenMP (Linux般已安装,对于Windows则需手动安装) ,以获得最佳并行计算能力。内存够的话跑非量化的那个版本,cpu跑量化模型并不会快效果还差。
答:语义模式效果更好。
答:你就把setting里的路径指向你正常6b的模型位置,然后把代码里面cuda()改成float()。
答:一样有自己的整套实现,他自己写的基础的训练程序,群友给他写的lora。
答:rwkv也是用rnn作为基础模型实现了一个类似transformer。
答:glm的话你就直接下不带int4后缀那个模型,去指定就好了。下载地址在https://huggingface.co/THUDM/chatglm-6b。
答:不限制。
答:只是一个知识库使用的示例,可以不用管。
答:看最新readme。sy指的的索引两字,yy指的的语义两字,也就是知识库构建的两种不同技术实现。
答:v2版本。
答:对,官方bin 貌似大一点旧版我集成的slim版,新版因为官方已经剪纸,我换成官方了。
答:主要原因是win系统和Linux系统的换行符不一样。在WSL里面clone就行了这是git程序会根据不同系统自动设置文件格式的原因。或者在windows系统中用vscode工具打开,在右下角选择“LF或CRLF”点击,然后在操作命令的面板中选择“LF”再保存一次文件就可以了。
答:用i4模型就是i4,不然就是fp16
答:闻达有现成的api调用接口,请查看源码。
答:目前来看最大的优势是速度快,同设备相似的参数量比glm快一大截。
Beta Was this translation helpful? Give feedback.
All reactions