Skip to content

Files

This branch is 2249 commits behind PaddlePaddle/PaddleNLP:develop.

applications

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
Feb 21, 2023
Mar 3, 2023
Mar 7, 2023
Mar 6, 2023
Mar 2, 2023
Dec 29, 2022
Mar 2, 2023
Feb 20, 2023
Mar 7, 2023
Jan 19, 2023

产业级端到端系统范例

1、简介

PaddleNLP 从预训练模型库出发,提供了经典预训练模型在主流 NLP 任务上丰富的应用示例,满足了大量开发者的学习科研与基础应用需求。

针对更广泛的产业落地需求、更复杂的 NLP 场景任务,PaddleNLP 推出产业级端到端系统范例库(下文简称产业范例),提供单个模型之上的产业解决方案。

  • 最强模型与实践———产业范例针对具体业务场景,提供最佳模型(组合),兼顾模型精度与性能,降低开发者模型选型成本;
  • 全流程———打通数据标注-模型训练-模型调优-模型压缩—预测部署全流程,帮助开发者更低成本得完成产业落地。

2、基于 Pipelines 构建产业范例,加速落地

在面向不同场景任务建设一系列产业方案的过程中,不难发现,从技术基础设施角度看:

(1)NLP系统都可以抽象为由多个基础组件串接而成的流水线系统; (2)多个NLP流水线系统可共享使用相同的基础组件。

因此,PaddleNLP 逐渐孵化出了一套 NLP 流水线系统 Pipelines,将各个 NLP 复杂系统的通用模块抽象封装为标准组件,支持开发者通过配置文件对标准组件进行组合,仅需几分钟即可定制化构建智能系统,让解决NLP任务像搭积木一样便捷、灵活、高效。同时,Pipelines 中预置了前沿的预训练模型和算法,在研发效率、模型效果和性能方面提供多重保障。因此,Pipelines 能够大幅加快开发者使用飞桨落地的效率。


PaddleNLP 提供了多个版本的产业范例:

  • 如果你希望快速体验、直接应用、从零搭建一套完整系统,推荐使用 Pipelines 版本。这里集成了训练好的模型,无需关心模型训练细节;提供 Docker 环境,可快速一键部署端到端系统;打通前端 Demo 界面,便于直观展示、分析、调试效果。
  • 如果你希望使用自己的业务数据进行二次开发,推荐使用./applications目录下的可定制版本,训练好的模型可以直接集成进 Pipelines 中进行使用。
  • 也可以使用 AI Studio 在线 Jupyter Notebook 快速体验,有 GPU 算力哦。
场景任务 Pipelines版本地址 可定制版本地址 Notebook
检索 字面+语义检索 语义检索 基于Pipelines搭建检索系统
二次开发语义检索
问答 FAQ问答
无监督检索式问答
有监督检索式问答
FAQ问答
无监督检索式问答
基于Pipelines搭建FAQ问答系统
基于Pipelines搭建抽取式问答系统
FAQ政务问答
FAQ保险问答
文本分类 暂无 文本分类 对话意图识别
法律文本多标签分类
层次分类
通用文本分类 暂无 通用文本分类
通用信息抽取 暂无 通用信息抽取 UIE快速体验
UIE微调实体抽取
UIE微调关系抽取
UIE-X快速体验
UIE-X微调
情感分析 情感分析 情感分析 情感分析
文档智能 文档抽取问答 跨模态文档问答 文档抽取问答
汽车说明书问答
文生图 文生图系统 可参考PPDiffusers
语音指令解析 暂无 语音指令解析 语音指令解析
文本摘要 暂无 文本摘要 文本摘要

3、典型范例介绍

📄 通用信息抽取系统

  • 首个产业级通用信息抽取方案 UIE,面向纯文本,实现多任务统一建模,提供强大的零样本抽取和少样本快速迁移能力;
  • 首个兼具文本及文档抽取能力、多语言、开放域的信息抽取方案 UIE-X,基于 ERNIE-Layout 跨模态布局增强预训练模型,集成 PaddleOCR 的 PP-OCR、PP-Structure 版面分析能力,小样本文档信息抽取效果领先。

详细使用说明请参考通用信息抽取系统,更多:UIE 解读UIE-X 解读

🔍 语义检索系统

  • 前沿算法———基于 SimCSE、In-batch Negatives、ERNIE Pairwise、RocketQA Pointwise 等提供针对无监督、有监督等多种数据情况的多样化方案;
  • 全流程———覆盖召回、排序环节,集成主流 ANN 引擎,同时兼容 ElasticSearch 字面检索模式,提供多路召回方案。打通训练、调优、高效向量检索引擎建库和查询全流程。

详细使用说明请参考语义检索系统

❓ 智能问答系统

  • 端到端问答技术 🚀RocketQA,首个中文端到端问答模型,基于知识增强的预训练模型ERNIE和百万量级的人工标注数据集DuReader训练得到,效果优异;
  • 覆盖有监督(如 FAQ 问答)、无监督(自动生成 QA 对,生成的问答对语料可以通过无监督的方式构建检索式问答系统)等多种情况,适用各类业务场景。

详细使用说明请参考智能问答系统文档智能问答

📚 通用文本分类

  • 基于“任务架构统一、通用能力共享”的通用文本分类技术 UTC,实了良好的零/少样本迁移能力,实现大一统诸多任务的开放域分类,可支持情感分析、意图识别、语义匹配、蕴含推理等各种可转换为分类问题的 NLU 任务。

详细使用说明请参考通用文本分类,更多:文章解读

🗂 文本分类

  • 场景方案全覆盖––––开源预训练模型-微调、提示学习、基于语义索引等多种分类技术方案,满足不同场景需求,涵盖多分类(multi-class)、多标签(multi-label)、层次分类(hierarchical)三类任务;
  • 模型高效调优––––强强结合数据增强能力与可信增强技术,解决脏数据、标注数据欠缺、数据不平衡等问题,大幅提升模型效果。

详细使用说明请参考文本分类,更多:文章解读

💌 评论观点抽取与情感分析

  • 经典方案:基于情感知识增强预训练模型SKEP,两阶段式抽取和分类,首先通过序列标注的方式定位属性词和观点词,然后进行属性集情感分类;
  • 前沿方案:基于UIE的情感分析方案采用 Prompt Learning 的方式进行情感信息抽取,精度更高。支持语句级和属性级情感分析,解决同义属性聚合、隐性观点抽取难点,并提供可视化分析能力。

详细使用说明请参考情感分析,更多:文章解读

🎙️ 智能语音指令解析

  • 集成了PaddleSpeech百度开放平台的的语音识别和UIE通用信息抽取等技术,打造智能一体化的语音指令解析系统范例,该方案可应用于智能语音填单、智能语音交互、智能语音检索等场景,提高人机交互效率。

详细使用说明请参考智能语音指令解析