Skip to content

Latest commit

 

History

History
169 lines (152 loc) · 6.98 KB

README.md

File metadata and controls

169 lines (152 loc) · 6.98 KB

FastDeploy UIE 模型 Python 部署示例

在部署前,参考 FastDeploy SDK 安装文档安装 FastDeploy Python SDK。

本目录下提供 infer.py 快速完成在 CPU/GPU 的通用文本分类任务的 Python 部署示例。

依赖安装

直接执行以下命令安装部署示例的依赖。

# 安装 fast_tokenizer 以及 GPU 版本 fastdeploy
pip install fast-tokenizer-python fastdeploy-gpu-python -f https://www.paddlepaddle.org.cn/whl/fastdeploy.html

快速开始

以下示例展示如何基于 FastDeploy 库完成 UIE 模型进行信息抽取任务的 Python 预测部署,可通过命令行参数--device以及--backend指定运行在不同的硬件以及推理引擎后端,并使用--model_dir参数指定运行的模型,具体参数设置可查看下面参数说明。示例中的模型是按照 UIE 训练文档导出得到的部署模型,其模型目录为 model_zoo/uie/checkpoint/model_best(用户可按实际情况设置)。

# CPU 推理
python infer.py --model_dir ../../checkpoint/model_best --device cpu
# GPU 推理
python infer.py --model_dir ../../checkpoint/model_best --device gpu

运行完成后返回的结果如下:

[2023-03-06 03:31:21,456] [    INFO] - We are using <class 'paddlenlp.transformers.ernie.tokenizer.ErnieTokenizer'> to load 'export'.
[INFO] fastdeploy/runtime/runtime.cc(91)::AutoSelectBackend    FastDeploy will choose Backend::PDINFER to inference this model.
[INFO] fastdeploy/runtime/runtime.cc(266)::CreatePaddleBackend    Runtime initialized with Backend::PDINFER in Device::GPU.
-----------------------------
1. Input text:
"北京市海淀区人民法院
民事判决书
(199x)建初字第xxx号
原告:张三。
委托代理人李四,北京市 A律师事务所律师。
被告:B公司,法定代表人王五,开发公司总经理。
委托代理人赵六,北京市 C律师事务所律师。"
2. Input schema:
['法院', {'原告': '委托代理人'}, {'被告': '委托代理人'}]
3. Result:
{'原告': [{'end': 38,
         'probability': 0.9991321038858274,
         'relations': {'委托代理人': [{'end': 47,
                                  'probability': 0.8729063160951966,
                                  'start': 45,
                                  'text': '李四'}]},
         'start': 36,
         'text': '张三'}],
 '法院': [{'end': 11,
         'probability': 0.9766876070751707,
         'start': 1,
         'text': '北京市海淀区人民法院'}],
 '被告': [{'end': 68,
         'probability': 0.9532207287016696,
         'relations': {'委托代理人': [{'end': 93,
                                  'probability': 0.7685119772607152,
                                  'start': 91,
                                  'text': '赵六'}]},
         'start': 65,
         'text': 'B公司'}]}
......

参数说明

参数 参数说明
--model_dir 指定部署模型的目录,
--batch_size 输入的batch size,默认为 1
--max_length 最大序列长度,默认为 128
--num_omask_tokens 最大标签数量,默认为64
--device 运行的设备,可选范围: ['cpu', 'gpu'],默认为'cpu'
--device_id 运行设备的id。默认为0。
--cpu_threads 当使用cpu推理时,指定推理的cpu线程数,默认为1。
--backend 支持的推理后端,可选范围: ['onnx_runtime', 'paddle', 'openvino', 'tensorrt', 'paddle_tensorrt'],默认为'paddle'
--use_fp16 是否使用FP16模式进行推理。使用tensorrt和paddle_tensorrt后端时可开启,默认为False
--use_fast 是否使用FastTokenizer加速分词阶段。默认为True

FastDeploy 高阶用法

FastDeploy 在 Python 端上,提供 fastdeploy.RuntimeOption.use_xxx() 以及 fastdeploy.RuntimeOption.use_xxx_backend() 接口支持开发者选择不同的硬件、不同的推理引擎进行部署。在不同的硬件上部署 UIE 模型,需要选择硬件所支持的推理引擎进行部署,下表展示如何在不同的硬件上选择可用的推理引擎部署 UIE 模型。

符号说明: (1) ✅: 已经支持; (2) ❔: 正在进行中; (3) N/A: 暂不支持;

硬件 硬件对应的接口 可用的推理引擎 推理引擎对应的接口 是否支持 Paddle 新格式量化模型 是否支持 FP16 模式
CPU use_cpu() Paddle Inference use_paddle_infer_backend() N/A
ONNX Runtime use_ort_backend() N/A
OpenVINO use_openvino_backend() N/A
GPU use_gpu() Paddle Inference use_paddle_infer_backend() N/A
ONNX Runtime use_ort_backend()
Paddle TensorRT use_paddle_infer_backend() + paddle_infer_option.enable_trt = True
TensorRT use_trt_backend()
昆仑芯 XPU use_kunlunxin() Paddle Lite use_paddle_lite_backend() N/A
华为 昇腾 use_ascend() Paddle Lite use_paddle_lite_backend()
Graphcore IPU use_ipu() Paddle Inference use_paddle_infer_backend() N/A