Home

文本清洗

提取过程基于正则表达式re.findall (Python)完成
可选择提取中文、英文、数字、及常用中英文标点
- 中文标点包括：。？！，、 ; ： “ ” （） —— …… 《》、－- ～ · `
- 英文标点包括：. ? ! , : ; - – — ( ) [ ] { } " ' \ `
可在更多设置中选择提取更多常用特殊符号或手动添加特殊符号
支持使用自定义提取规则填充在re.findall内完成提取，提取规则参考菜鸟教程-正则表达式

基于信息熵(H)、文本聚合度(Dop)、自由度(LeftFree、RightFree)的词语挖掘，默认权重分配比：

支持使用 精确模式、全模式、搜索引擎模式、词性筛选模式、关键词收取模式TextRank、关键词收取模式TF-IDF 六种分词方式

词性筛选模式、关键词收取模式TextRank、关键词收取模式TF-IDF 三个模式使用自定义用户词时，需要指定词性才能生效，如名词 n，具体参考https://github.com/fxsjy/jieba