-
mistral 8x7B MOE
-
ChatGLM3-6B更新
- 支持通过 TensorRT-LLM 构建模型引擎并进行加速推理。
- 模型推理速度相比同规格同精度的 Huggingface 推理方式 提升数倍。使用 A100 显卡时,批处理速度最高可达 2000 tokens / s 。
- Github仓库:https://github.com/THUDM/ChatGLM3/tree/main/tensorrt_llm_demo
- 技术文档:https://zhipu-ai.feishu.cn/wiki/UdjjwCpHIiqZ16kr0yQcoAEvnmd