Skip to content

Commit 3f97d11

Browse files
committed
update
1 parent c96bbf7 commit 3f97d11

File tree

2 files changed

+2
-1
lines changed

2 files changed

+2
-1
lines changed

_posts/llm/2023-11-01-chatglm-concurrent.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -13,7 +13,7 @@ draft: false
1313

1414
### 总结
1515
- 开源的 chatglm3-6b 只提供了连续生成的api,实际部署使用时,在只用了一个workers的情况下,如果有多人同时提问,必须要等到前一个回答全部结束后才会开始回答下一个问题,在用户端的感觉是等待时间过长,于是我参照chatglm3源码写了一个简单的并发api,显存要求更高一点,不过当有多人同时提问时,可以同时进行回答,回答速度会变慢,可以理解成是并发用户均分 token 生成速度。
16-
- 方案为临时使用,后续使用其他的高性能推理框架替代
16+
- 方案为临时使用,后续使用 vllm 代替,核心实现思路是类似的,工程上更加完善。
1717

1818
### 整体思路
1919
修改generate函数,不是连续生成一整句,每次只做一次推理,使用fastapi写一个请求端服务,附带上下文进行多次请求,请求服务有多个workers时可以处理并发,不需要等一整句生成完成后再生成下一句

run.sh

+1
Original file line numberDiff line numberDiff line change
@@ -0,0 +1 @@
1+
bundle exec jekyll serve --host 0.0.0.0

0 commit comments

Comments
 (0)