大语言模型

开源

mistral 8x7B MOE
ChatGLM3-6B更新

支持通过 TensorRT-LLM 构建模型引擎并进行加速推理。
模型推理速度相比同规格同精度的 Huggingface 推理方式提升数倍。使用 A100 显卡时，批处理速度最高可达 2000 tokens / s 。
Github仓库：https://github.com/THUDM/ChatGLM3/tree/main/tensorrt_llm_demo
技术文档：https://zhipu-ai.feishu.cn/wiki/UdjjwCpHIiqZ16kr0yQcoAEvnmd