常见问题解答 #67

l15y · 2023-04-10T03:28:23Z

l15y
Apr 10, 2023
Maintainer

加载RWKV-4-Raven-14B-V8-EngAndMore-20230408-ctx4096.pth模型文件不是用的全fp16跑的？
答：显存够可以开全fp16。
git上有个开源什么项目的说低显卡也可以跑大模型用了什么技术？
答：offload到内存甚至固态上,能跑但仅限于能跑,比纯CPU跑快一些。
闻达的这个知识库实际上是属于搜索类的吗？
答：是用两种方法在知识库里搜一个大概的文本再把问题和参考数据一起给模型让模型回答整理，分为索引和语义分析两种。
ChatRWKV比chatglm慢很多，不过比较准确，我的rwkv较慢正常吗?
答：不正常。rwkv在相同精度相似参数量的情况下比glm快得多。
在CPU 上运行时有哪些需要注意的事项？
答：请确保已安装 GCC和 OpenMP (Linux般已安装，对于Windows则需手动安装) ，以获得最佳并行计算能力。内存够的话跑非量化的那个版本，cpu跑量化模型并不会快效果还差。
知识库索引模式. 知识库语义模式，这两种模式那种效果更好？
答：语义模式效果更好。
32g内存正常跑GLM的CPU可以跑起来，闻达这个不知道怎么改？
答：你就把setting里的路径指向你正常6b的模型位置，然后把代码里面cuda()改成float()。
rwkv不是tansformer，这个怎么微调呢？
答：一样有自己的整套实现，他自己写的基础的训练程序,群友给他写的lora。
rnn比transformer其实更好?
答：rwkv也是用rnn作为基础模型实现了一个类似transformer。
非量化的fp16模型如何选择？
答：glm的话你就直接下不带int4后缀那个模型，去指定就好了。下载地址在https://huggingface.co/THUDM/chatglm-6b。
现在4.9号的版本支持多少轮聊天呀？
答：不限制。
生成txt是这个可以忽略吗？
答：只是一个知识库使用的示例，可以不用管。
requirements-glm6b-lora.txt. requirements-rwkv.txt. requirements-sy.txt. requirements-yy.txt这几个都需要装吗？sy和yy分别代指什么？
答：看最新readme。sy指的的索引两字，yy指的的语义两字，也就是知识库构建的两种不同技术实现。
闻达里面的rkvw是不是不是集成的v2版本
答：v2版本。
PyTorch总共保留4.32 GiB 这是模型一启动就占用了吗？
答：对，官方bin 貌似大一点旧版我集成的slim版，新版因为官方已经剪纸，我换成官方了。
在win10下WSL2环境的用户，可能会遇到sh文件无法执行的问题，如何解决：
答：主要原因是win系统和Linux系统的换行符不一样。在WSL里面clone就行了这是git程序会根据不同系统自动设置文件格式的原因。或者在windows系统中用vscode工具打开，在右下角选择“LF或CRLF”点击，然后在操作命令的面板中选择“LF”再保存一次文件就可以了。
wenda是默认以int4运行的吗，可不可以换成fp16（我想精度高一些）？
答：用i4模型就是i4，不然就是fp16
闻达有现成的api调用接口吗？
答：闻达有现成的api调用接口，请查看源码。
rwkv优势是什么？
答：目前来看最大的优势是速度快，同设备相似的参数量比glm快一大截。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

常见问题解答 #67

{{title}}

Replies: 0 comments

Select a reply

常见问题解答 #67

l15y Apr 10, 2023 Maintainer

Replies: 0 comments

l15y
Apr 10, 2023
Maintainer