update

luokai0223 · luokai0223 · commit 3f97d11f9ddf · 2024-06-24T07:16:08.000Z
diff --git a/_posts/llm/2023-11-01-chatglm-concurrent.md b/_posts/llm/2023-11-01-chatglm-concurrent.md
@@ -13,7 +13,7 @@ draft: false
 
 ### 总结
 - 开源的 chatglm3-6b 只提供了连续生成的api，实际部署使用时，在只用了一个workers的情况下，如果有多人同时提问，必须要等到前一个回答全部结束后才会开始回答下一个问题，在用户端的感觉是等待时间过长，于是我参照chatglm3源码写了一个简单的并发api，显存要求更高一点，不过当有多人同时提问时，可以同时进行回答，回答速度会变慢，可以理解成是并发用户均分 token 生成速度。
-- 方案为临时使用，后续使用其他的高性能推理框架替代
+- 方案为临时使用，后续使用 vllm 代替，核心实现思路是类似的，工程上更加完善。
 
 ### 整体思路
 修改generate函数，不是连续生成一整句，每次只做一次推理，使用fastapi写一个请求端服务，附带上下文进行多次请求，请求服务有多个workers时可以处理并发，不需要等一整句生成完成后再生成下一句
diff --git a/run.sh b/run.sh
@@ -0,0 +1 @@
+bundle exec jekyll serve --host 0.0.0.0

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+bundle exec jekyll serve --host 0.0.0.0`