LMDeploy提供了快速安装、模型量化、离线批处理、在线推理服务等功能。每个功能只需简单的几行代码或者命令就可以完成。
使用 pip (python 3.8+) 安装 LMDeploy,或者源码安装
pip install lmdeploy
LMDeploy的预编译包默认是基于 CUDA 12 编译的。如果需要在 CUDA 11+ 下安装 LMDeploy,请执行以下命令:
export LMDEPLOY_VERSION=0.5.0
export PYTHON_VERSION=38
pip install https://github.com/InternLM/lmdeploy/releases/download/v${LMDEPLOY_VERSION}/lmdeploy-${LMDEPLOY_VERSION}+cu118-cp${PYTHON_VERSION}-cp${PYTHON_VERSION}-manylinux2014_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu118
import lmdeploy
pipe = lmdeploy.pipeline("internlm/internlm2_5-7b-chat")
response = pipe(["Hi, pls intro yourself", "Shanghai is"])
print(response)
有关 pipeline 的详细使用说明,请参考这里
LMDeploy 提供了多种部署模型推理服务的方式,总有一款适合你。
LMDeploy CLI 提供了如下便捷的工具,方便用户快速体验模型对话效果
lmdeploy chat internlm/internlm2_5-7b-chat
LMDeploy 使用 gradio 开发了在线对话 demo。
# 安装依赖
pip install lmdeploy[serve]
# 启动
lmdeploy serve gradio internlm/internlm2_5-7b-chat