Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

不断向图中insert文本时会死机,跑一会就死机,100%复现,不知道官方测试有没有这个问题 #281

Open
wangtianqi1993 opened this issue Nov 15, 2024 · 3 comments

Comments

@wangtianqi1993
Copy link

有几个文本文件,每次串行读100k然后 调用insert接口,llm调用的是外部api,在插入的过程中cpu利用率到了100%,跑着跑着就 死机了。
参数设置:chunk_size=1200, llm_model_max_async = 8, embedding_func_max_async = 8
是不是在向图中插入节点或者去节点去重时并发过大?或者时堆栈溢出了

@LarFii
Copy link
Collaborator

LarFii commented Nov 15, 2024

目前我们没有遇到这个问题,我们目前测试的最大的数据集是Legal,包含94个文本文件,token总数为500w。

@Sucran
Copy link
Contributor

Sucran commented Nov 16, 2024

跑着跑着死机,应该是只使用cpu的时候,有太多数据需要插入向量数据库时出现的。cpu满负荷了,我在自己mac上也有遇到过,在issue #212 有提到说尽量使用gpu,这样会快点,条件有限的话也没办法,可以适当地降低embedding的并发数也可以。llm的并发数基本不太影响cpu的使用率。 @wangtianqi1993

@wangtianqi1993
Copy link
Author

#212

多谢解答,我是在4090服务器上跑的,开始emb与llm都部署在本地gpu上,跑一段时间就会死机,怀疑是llm对显卡利用过高,所以换成了外部llm api+ 本地gpu 上的 emb模型,看看降速跑能不能解决问题 ,调用外部llm api 处理过程就很慢了,但是过程中还是会死机, 那就可能像你说的那样 插入数据库时满负荷了,我再看看调整下参数 @Sucran

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants