-
Notifications
You must be signed in to change notification settings - Fork 0
Home
casuallyName edited this page Feb 7, 2022
·
2 revisions
- 提取过程基于正则表达式
re.findall
(Python)完成 - 可选择提取中文、英文、数字、及常用中英文标点
- 中文标点包括:。 ? ! , 、 ; : “ ” ( ) —— …… 《 》 、 -- ~ · `
- 英文标点包括:. ? ! , : ; - – — ( ) [ ] { } " ' \ `
- 可在更多设置中选择提取更多常用特殊符号或手动添加特殊符号
- 支持使用自定义提取规则填充在
re.findall
内完成提取,提取规则参考菜鸟教程-正则表达式
基于信息熵(H)、文本聚合度(Dop)、自由度(LeftFree、RightFree)的词语挖掘,默认权重分配比:
-
模型使用
jieba
模块进行分词 -
支持使用 精确模式、全模式、搜索引擎模式、词性筛选模式、关键词收取模式TextRank、关键词收取模式TF-IDF 六种分词方式
-
词性筛选模式、关键词收取模式TextRank、关键词收取模式TF-IDF 三个模式使用自定义用户词时,需要指定词性才能生效,如
名词 n
,具体参考https://github.com/fxsjy/jieba标签 含义 标签 含义 标签 含义 标签 含义 n 普通名词 f 方位名词 s 处所名词 t 时间 nr 人名 ns 地名 nt 机构名 nw 作品名 nz 其他专名 v 普通动词 vd 动副词 vn 名动词 a 形容词 ad 副形词 an 名形词 d 副词 m 数量词 q 量词 r 代词 p 介词 c 连词 u 助词 xc 其他虚词 w 标点符号 PER 人名 LOC 地名 ORG 机构名 TIME 时间
-
- 该部分使用Java版本的
HanLP 1.x
模块进行进行聚类 -
HanLP 1.x
开源地址:https://github.com/hankcs/HanLP/tree/1.x
模型使用 [wordcloud](GitHub - amueller/word_cloud: A little word cloud generator in Python) 模块进行生成
- 参数太多不想写了。。 参考Gallery of Examples.