Releases · HIT-SCIR/ltp · GitHub

18 Jun 10:31

Oneplus

语言技术平台3.1.1版

[创建] 创建Java封装，ltp4j：https://github.com/HIT-SCIR/ltp4j
[创建] 创建Python封装，pyltp：https://github.com/HIT-SCIR/pyltp
[增加] 词性标注模块添加了词典功能，用户可以为特定词语指定候选词性
[增加] 训练数据增加微博数据，提高了互联网语料的处理能力
[增加] 增加编程接口中的数据合法性检查
[增加] 增加单元测试模块
[修改] 修改了预处理规则，使得iphone5s这样的产品名不会被切开
[修改] 修改了语义角色标注训练套件的bug

Assets 2

20 Jan 14:28

Oneplus

语言技术平台3.1.0版

在分词、词性标注和依存句法分析模块中加入模型裁剪功能，减少了模型大小。用户可以通过配置文件里的rare-feature-threshold参数配置裁剪力度，如果rare-feature-threshold为0，则只去掉为0的特征；rare-feature-threshold大于0时将一步去掉更新次数低于阈值的特征。这一优化方法主要参考Learning Sparser Perceptron Models。
增加了ltp_server在异常输入情况下返回错误代码，如果输入数据编码错误或者输入xml不符合规则，将返回400
修复了词性标注、命名实体识别、依存句法分析训练套件中的内存泄露问题
修复了语义角色标注的内存泄露问题
修复了词性标注、命名实体识别模型文件的错误标示符，这项修改将导致3.1.0以及之后的版本不能与3.0.x的模型兼容，请务必注意
修复了由boost.multi_array.views引起的MSVC下不能以Debug方式编译的问题
修复了由打开文件时字符串为空引起的Windows下不能正常运行的bug

Assets 2

29 Sep 07:28

Oneplus

语言技术平台3.0.1版

解决windows编译问题
实现各模块多线程支持
新增linux下多线程LTP工具包，multi_ltp_test
实现服务器程序ltp_server多线程支持
修复4长度utf-8字符、伪标记导致%的标注结果等bug

Assets 2

01 Sep 06:50

Oneplus

语言技术平台3.0.0版

从底层开始，实现了一套中文文本处理库
实现在线机器学习算法框架
在算法框架基础上实现了分词、词性标注、命名实体识别和依存句法分析四个模块
实现模型裁剪，提高内存性能
实现L1优化的最大熵模型，大幅度提高内存性能
在L1优化最大熵的基础上实现语义角色标注模块
在分词模块中实现了用户自定义字典的逻辑
在依存句法分析模块中实现了二阶解码，提高分析准确率
完善了训练套件，使用户可以更灵活地训练模型

Assets 2

01 Sep 06:36

Oneplus

语言技术平台2.2.2版

旧框架下语言技术平台最后一版

Assets 2

20 Jan 14:49

Oneplus

语言技术平台2.2.1版

解决LTP对于boost库以及其他一些第三方库的依赖，将训练模块开源，修复了高版本GCC不能编译的bug

Assets 2

20 Jan 14:48

Oneplus

语言技术平台2.2.0版

使用CMake更新了编译工具，同时重制了部分文档。

Assets 2

20 Jan 14:47

Oneplus

语言技术平台2.1.1版

删除模型文件以及编译中间文件，重制文档v2.1

Assets 2

20 Jan 14:48

Oneplus

语言技术平台2.1.0版

原始版本的LTP

Assets 2