Skip to content

Commit 14bb7cf

Browse files
authored
[PIR] Create paddle.inference infer example of ernie-3.0-tiny (#10480)
1 parent d75d5ad commit 14bb7cf

File tree

4 files changed

+120
-387
lines changed

4 files changed

+120
-387
lines changed

slm/model_zoo/ernie-3.0-tiny/README.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -525,7 +525,7 @@ python run_eval.py \
525525
```
526526

527527
* `model_name_or_path`:动态图模型的目录,主要用于加载 tokenizer。
528-
* `infer_prefix`:预测模型的路径(目录+前缀)。例如当 `infer_prefix``output/infer_model` 时,代表预测模型和参数文件分别为 `output/infer_model.pdmodel``output/infer_model.pdiparams`
528+
* `infer_prefix`:预测模型的路径(目录+前缀)。例如当 `infer_prefix``output/infer_model` 时,代表预测模型和参数文件分别为 `output/infer_model.json`(paddle3.0.0 默认开启 PIR)`output/infer_model.pdmodel`(未开启 PIR)`output/infer_model.pdiparams`
529529
* `test_path` :评估所用文件路径名;
530530
* `do_eval`,是否输出评价指标的结果。如果设置,脚本会开启评估模式,最终会输出精度评价指标的值。如果不设置,则会输出模型后处理后的结果。例如:
531531

slm/model_zoo/ernie-3.0-tiny/deploy/README.md

Lines changed: 3 additions & 14 deletions
Original file line numberDiff line numberDiff line change
@@ -1,7 +1,6 @@
1-
# FastDeploy ERNIE 3.0 Tiny 模型高性能部署
1+
# ERNIE 3.0 Tiny 模型推理
22

33
**目录**
4-
* [FastDeploy 部署介绍](#FastDeploy 部署介绍)
54
* [代码结构](#代码结构)
65
* [环境要求](#环境要求)
76
* [详细部署文档](#详细部署文档)
@@ -10,10 +9,6 @@
109

1110
## FastDeploy 部署介绍
1211

13-
**⚡️FastDeploy**是一款**全场景****易用灵活****极致高效**的 AI 推理部署工具,满足开发者**多硬件、多平台**的产业部署需求。开发者可以基于 FastDeploy 将训练好的预测模型在不同的硬件、不同的操作系统以及不同的推理引擎后端上进行部署。目前 FastDeploy 提供多种编程语言的 SDK,包括 C++、Python 以及 Java SDK。
14-
15-
目前 ERNIE 3.0 Tiny 模型已提供基于 FastDeploy 的云边端的部署示例,在服务端上的 GPU 硬件上,支持`Paddle Inference``ONNX Runtime``Paddle TensorRT`以及`TensorRT`后端,在 CPU 上支持`Paddle Inference``ONNX Runtime`以及`OpenVINO`后端;在移动端上支持`Paddle Lite`后端。多硬件、多推理引擎后端的支持可以满足开发者不同的部署需求。
16-
1712
本部署示例是车载语音场景下的口语理解(Spoken Language Understanding,SLU)任务,详细可看[ERNIE 3.0 Tiny 介绍](../README.md)
1813

1914

@@ -24,18 +19,12 @@
2419
```text
2520
2621
├── python
27-
│   ├── infer_demo.py # Python 部署示例代码
28-
│   └── README.md # Python 部署示例文档
22+
│   ├── infer_demo.py # Python 推理示例代码
23+
│   └── README.md # Python 推理示例文档
2924
└── README.md # 文档
3025
3126
```
3227

33-
<a name="环境要求"></a>
34-
35-
## 环境要求
36-
37-
在部署 ERNIE 3.0 Tiny 模型前,需要安装 FastDeploy SDK,可参考[FastDeploy SDK 安装文档](https://github.com/PaddlePaddle/FastDeploy/blob/develop/docs/cn/build_and_install/download_prebuilt_libraries.md)确认部署环境是否满足 FastDeploy 环境要求,并按照介绍安装相应的 SDK。
38-
3928
<a name="详细部署文档"></a>
4029

4130
## 详细部署文档
Lines changed: 12 additions & 211 deletions
Original file line numberDiff line numberDiff line change
@@ -1,61 +1,36 @@
1-
# FastDeploy ERNIE 3.0 Tiny 模型 Python 部署示例
2-
3-
在部署前,参考 [FastDeploy SDK 安装文档](https://github.com/PaddlePaddle/FastDeploy/blob/develop/docs/cn/build_and_install/download_prebuilt_libraries.md) 安装 FastDeploy Python SDK。
1+
# ERNIE 3.0 Tiny 模型 Python 推理示例
42

53
本目录下分别提供 `infer_demo.py` 快速完成在 CPU/GPU 的车载语音场景下的口语理解(Spoken Language Understanding,SLU)任务的 Python 部署示例,并展示端到端预测性能的 Benchmark。
64

75

8-
## 依赖安装
9-
10-
直接执行以下命令安装部署示例的依赖。
11-
12-
```bash
13-
14-
# 安装GPU版本fastdeploy
15-
pip install fastdeploy-gpu-python -f https://www.paddlepaddle.org.cn/whl/fastdeploy.html
16-
17-
```
18-
196
## 快速开始
207

21-
以下示例可通过命令行参数`--device`以及`--backend`指定运行在不同的硬件以及推理引擎后端,并使用`--model_dir`参数指定运行的模型,具体参数设置可查看下面[参数说明](#参数说明)。示例中的模型是按照[ERNIE 3.0 Tiny 训练文档](../../README.md)导出得到的部署模型,其模型目录为`model_zoo/ernie-tiny/output/BS64_LR5e-5_20EPOCHS_WD0.01_WR0.1/`(用户可按实际情况设置)。
8+
以下示例可通过命令行参数`--device`指定运行在不同的硬件,并使用`--model_dir`参数指定运行的模型,具体参数设置可查看下面[参数说明](#参数说明)。示例中的模型是按照[ERNIE 3.0 Tiny 训练文档](../../README.md)导出得到的部署模型,其模型目录为`model_zoo/ernie-tiny/output/BS64_LR5e-5_EPOCHS30/`(用户可按实际情况设置)。
229

2310
```bash
2411

2512
# 在GPU上使用paddle_inference后端,模型目录可按照实际模型路径设置
26-
python infer_demo.py --device gpu --backend paddle --model_dir ../../output/BS64_LR5e-5_20EPOCHS_WD0.01_WR0.1 --slot_label_path ../../data/slot_label.txt --intent_label_path ../../data/intent_label.txt
13+
python infer_demo.py --device gpu --model_dir ../../output/BS64_LR5e-5_EPOCHS30 --slot_label_path ../../data/slot_label.txt --intent_label_path ../../data/intent_label.txt
2714

2815
# 在CPU上使用paddle_inference后端,模型目录可按照实际模型路径设置
29-
python infer_demo.py --device cpu --backend paddle --model_dir ../../output/BS64_LR5e-5_20EPOCHS_WD0.01_WR0.1 --slot_label_path ../../data/slot_label.txt --intent_label_path ../../data/intent_label.txt
16+
python infer_demo.py --device cpu --backend paddle --model_dir ../../output/BS64_LR5e-5_EPOCHS30 --slot_label_path ../../data/slot_label.txt --intent_label_path ../../data/intent_label.txt
3017

3118
```
3219

3320
运行完成后返回的结果如下:
3421

3522
```bash
36-
37-
[INFO] fastdeploy/runtime.cc(596)::Init Runtime initialized with Backend::PDINFER in Device::GPU.
23+
......
24+
--- Running PIR pass [inplace_pass]
25+
I0423 14:02:46.963447 2082 print_statistics.cc:50] --- detected [2] subgraphs!
26+
I0423 14:02:46.963521 2082 analysis_predictor.cc:1186] ======= pir optimization completed =======
27+
I0423 14:02:46.971112 2082 pir_interpreter.cc:1640] pir interpreter is running by trace mode ...
3828
No. 0 text = 来一首周华健的花心
39-
{'intent': 'music.play', 'confidence': 0.99833965, 'slot': [{'slot': 'singer', 'entity': '周华健', 'pos': [3, 5]}, {'slot': 'song', 'entity': '花心', 'pos': [7, 8]}]}
29+
{'intent': 'music.play', 'confidence': 0.9986396431922913, 'slot': [{'slot': 'song', 'entity': ''}, {'slot': 'singer', 'entity': '华健的'}, {'slot': 'song', 'entity': ''}]}
4030
No. 1 text = 播放我们都一样
41-
{'intent': 'music.play', 'confidence': 0.9985164, 'slot': [{'slot': 'song', 'entity': '我们都一样', 'pos': [2, 6]}]}
31+
{'intent': 'music.play', 'confidence': 0.9983224272727966, 'slot': [{'slot': 'song', 'entity': '们都一样'}]}
4232
No. 2 text = 到信阳市汽车配件城
43-
{'intent': 'navigation.navigation', 'confidence': 0.998626, 'slot': [{'slot': 'destination', 'entity': '信阳市汽车配件城', 'pos': [1, 8]}]}
44-
45-
```
46-
47-
### 量化模型部署
48-
49-
该示例支持部署 Paddle INT8 新格式量化模型,仅需在`--model_dir`参数传入量化模型路径,并且在对应硬件上选择可用的推理引擎后端,即可完成量化模型部署。在 GPU 上部署量化模型时,可选后端为`paddle_tensorrt``tensorrt`;在 CPU 上部署量化模型时,可选后端为`paddle``onnx_runtime`。下面将展示如何使用该示例完成量化模型部署,示例中的模型是按照 [ERNIE 3.0 Tiny 训练文档](../../README.md) 压缩量化后导出得到的量化模型。
50-
51-
```bash
52-
53-
# 在 GPU 上使用 tensorrt 后端,模型目录可按照实际模型路径设置
54-
python infer_demo.py --device gpu --backend tensorrt --model_prefix int8 --model_dir ../../output/BS64_LR5e-5_20EPOCHS_WD0.01_WR0.1 --slot_label_path ../../data/slot_label.txt --intent_label_path ../../data/intent_label.txt
55-
56-
# 在 CPU 上使用 paddle_inference 后端,模型目录可按照实际模型路径设置
57-
python infer_demo.py --device cpu --backend paddle --model_prefix int8 --model_dir ../../output/BS64_LR5e-5_20EPOCHS_WD0.01_WR0.1_quant --slot_label_path ../../data/slot_label.txt --intent_label_path ../../data/intent_label.txt
58-
33+
{'intent': 'navigation.navigation', 'confidence': 0.9985769987106323, 'slot': [{'slot': 'destination', 'entity': ''}, {'slot': 'destination', 'entity': '阳市汽车配件城'}]}
5934
```
6035

6136
运行完成后返回的结果如下:
@@ -79,187 +54,13 @@ No. 2 text = 到信阳市汽车配件城
7954
| 参数 |参数说明 |
8055
|----------|--------------|
8156
|--device | 运行的设备,可选范围: ['cpu', 'gpu'],默认为'cpu' |
82-
|--backend | 支持的推理后端,可选范围: ['onnx_runtime', 'paddle', 'openvino', 'tensorrt', 'paddle_tensorrt'],默认为'paddle' |
8357
|--model_dir | 指定部署模型的目录。支持传入 Paddle INT8 新格式量化模型。 |
8458
|--slot_label_path| 指定的 slot label 文件路径 |
8559
|--intent_label_path| 指定的 intent label 文件路径 |
8660
|--batch_size |最大可测的 batch size,默认为 1|
8761
|--max_length |最大序列长度,默认为 128|
88-
|--use_trt_fp16 | 是否使用 FP16 模式进行推理。使用 TensorRT 和 Paddle TensorRT 后端时可开启,默认为 False |
8962
|--model_prefix| 模型文件前缀。前缀会分别与'.pdmodel'和'.pdiparams'拼接得到模型文件名和参数文件名。默认为 'infer_model'|
9063

91-
## FastDeploy 高阶用法
92-
93-
FastDeploy 在 Python 端上,提供 `fastdeploy.RuntimeOption.use_xxx()` 以及 `fastdeploy.RuntimeOption.use_xxx_backend()` 接口支持开发者选择不同的硬件、不同的推理引擎进行部署。在不同的硬件上部署 ERNIE 3.0 Tiny 模型,需要选择硬件所支持的推理引擎进行部署,下表展示如何在不同的硬件上选择可用的推理引擎部署 ERNIE 3.0 Tiny 模型。
94-
95-
符号说明: (1) ✅: 已经支持; (2) ❔: 正在进行中; (3) N/A: 暂不支持;
96-
97-
<table>
98-
<tr>
99-
<td align=center> 硬件</td>
100-
<td align=center> 硬件对应的接口</td>
101-
<td align=center> 可用的推理引擎 </td>
102-
<td align=center> 推理引擎对应的接口 </td>
103-
<td align=center> 是否支持 ERNIE 3.0 Tiny 模型 </td>
104-
<td align=center> 是否支持 Paddle 新格式量化模型 </td>
105-
<td align=center> 是否支持 FP16模式 </td>
106-
</tr>
107-
<tr>
108-
<td rowspan=3 align=center> CPU </td>
109-
<td rowspan=3 align=center> use_cpu() </td>
110-
<td align=center> Paddle Inference </td>
111-
<td align=center> use_paddle_infer_backend() </td>
112-
<td align=center> ✅ </td>
113-
<td align=center> ✅ </td>
114-
<td align=center> N/A </td>
115-
</tr>
116-
<tr>
117-
<td align=center> ONNX Runtime </td>
118-
<td align=center> use_ort_backend() </td>
119-
<td align=center> ✅ </td>
120-
<td align=center> ✅ </td>
121-
<td align=center> N/A </td>
122-
</tr>
123-
<tr>
124-
<td align=center> OpenVINO </td>
125-
<td align=center> use_openvino_backend() </td>
126-
<td align=center> ✅ </td>
127-
<td align=center> ❔ </td>
128-
<td align=center> N/A </td>
129-
</tr>
130-
<tr>
131-
<td rowspan=4 align=center> GPU </td>
132-
<td rowspan=4 align=center> use_gpu() </td>
133-
<td align=center> Paddle Inference </td>
134-
<td align=center> use_paddle_infer_backend() </td>
135-
<td align=center> ✅ </td>
136-
<td align=center> ✅ </td>
137-
<td align=center> N/A </td>
138-
</tr>
139-
<tr>
140-
<td align=center> ONNX Runtime </td>
141-
<td align=center> use_ort_backend() </td>
142-
<td align=center> ✅ </td>
143-
<td align=center> ✅ </td>
144-
<td align=center> ❔ </td>
145-
</tr>
146-
<tr>
147-
<td align=center> Paddle TensorRT </td>
148-
<td align=center> use_trt_backend() + enable_paddle_to_trt() </td>
149-
<td align=center> ✅ </td>
150-
<td align=center> ✅ </td>
151-
<td align=center> ✅ </td>
152-
</tr>
153-
<tr>
154-
<td align=center> TensorRT </td>
155-
<td align=center> use_trt_backend() </td>
156-
<td align=center> ✅ </td>
157-
<td align=center> ✅ </td>
158-
<td align=center> ✅ </td>
159-
</tr>
160-
<tr>
161-
<td align=center> 昆仑芯 XPU </td>
162-
<td align=center> use_kunlunxin() </td>
163-
<td align=center> Paddle Lite </td>
164-
<td align=center> use_paddle_lite_backend() </td>
165-
<td align=center> ✅ </td>
166-
<td align=center> N/A </td>
167-
<td align=center> ✅ </td>
168-
</tr>
169-
<tr>
170-
<td align=center> 华为 昇腾 </td>
171-
<td align=center> use_ascend() </td>
172-
<td align=center> Paddle Lite </td>
173-
<td align=center> use_paddle_lite_backend() </td>
174-
<td align=center> ✅ </td>
175-
<td align=center> ❔ </td>
176-
<td align=center> ✅ </td>
177-
</tr>
178-
<tr>
179-
<td align=center> Graphcore IPU </td>
180-
<td align=center> use_ipu() </td>
181-
<td align=center> Paddle Inference </td>
182-
<td align=center> use_paddle_infer_backend() </td>
183-
<td align=center> ❔ </td>
184-
<td align=center> ❔ </td>
185-
<td align=center> N/A </td>
186-
</tr>
187-
</table>
188-
189-
## 性能 Benchmark
190-
### 实验环境
191-
192-
<table>
193-
<tr>
194-
<td align=center> GPU 型号 </td>
195-
<td align=center> A10 </td>
196-
</tr>
197-
<tr>
198-
<td align=center> CUDA 版本 </td>
199-
<td align=center> 11.6 </td>
200-
</tr>
201-
<tr>
202-
<td align=center> cuDNN 版本 </td>
203-
<td align=center> 8.4.0 </td>
204-
</tr>
205-
<tr>
206-
<td align=center> CPU 型号 </td>
207-
<td align=center> Intel(R) Xeon(R) Gold 6271C CPU @ 2.60GHz </td>
208-
</tr>
209-
</table>
210-
211-
### 参数设置
212-
213-
batch size = 32,max length = 16。
214-
215-
测试文本长度15。
216-
217-
### 性能对比
218-
219-
#### FP32 模型
220-
221-
**使用 Paddle Inference 后端预测**
222-
223-
<table>
224-
<tr>
225-
<td align=center> 切词方式 </td>
226-
<td align=center> 端到端延时(ms) </td>
227-
<td align=center> Runtime 延时(ms) </td>
228-
<td align=center> Tokenizer 延时(ms) </td>
229-
<td align=center> PostProcess 延时(ms) </td>
230-
</tr>
231-
<tr>
232-
<td align=center> Python Tokenizer </td>
233-
<td align=center> 8.9028 </td>
234-
<td align=center> 0.9987 </td>
235-
<td align=center> 7.5499 </td>
236-
<td align=center> 0.3541 </td>
237-
</tr>
238-
</table>
239-
240-
#### INT8 模型
241-
242-
**使用 Paddle TensorRT 后端预测**
243-
244-
<table>
245-
<tr>
246-
<td align=center> 切词方式 </td>
247-
<td align=center> 端到端延时(ms) </td>
248-
<td align=center> Runtime 延时(ms) </td>
249-
<td align=center> Tokenizer 延时(ms) </td>
250-
<td align=center> PostProcess 延时(ms) </td>
251-
</tr>
252-
<tr>
253-
<td align=center> Python Tokenizer </td>
254-
<td align=center> 9.2509 </td>
255-
<td align=center> 1.0543 </td>
256-
<td align=center> 7.8407 </td>
257-
<td align=center> 0.3559 </td>
258-
</tr>
259-
</table>
260-
26164
## 相关文档
26265

26366
[ERNIE 3.0 Tiny 模型详细介绍](../../README.md)
264-
265-
[FastDeploy SDK 安装文档](https://github.com/PaddlePaddle/FastDeploy/blob/develop/docs/cn/build_and_install/download_prebuilt_libraries.md)

0 commit comments

Comments
 (0)