Skip to content
casuallyName edited this page Feb 7, 2022 · 2 revisions

文本清洗

  • 提取过程基于正则表达式re.findall (Python)完成
  • 可选择提取中文、英文、数字、及常用中英文标点
    • 中文标点包括: ; —— …… - · `
    • 英文标点包括:. ? ! , : ; - ( ) [ ] { } " ' \ `
  • 可在更多设置中选择提取更多常用特殊符号或手动添加特殊符号
  • 支持使用自定义提取规则填充在re.findall内完成提取,提取规则参考菜鸟教程-正则表达式

词语挖掘

基于信息熵(H)、文本聚合度(Dop)、自由度(LeftFree、RightFree)的词语挖掘,默认权重分配比:

img

文本分词

  • 模型使用 jieba 模块进行分词

  • 支持使用 精确模式全模式搜索引擎模式词性筛选模式关键词收取模式TextRank关键词收取模式TF-IDF 六种分词方式

    • 词性筛选模式关键词收取模式TextRank关键词收取模式TF-IDF 三个模式使用自定义用户词时,需要指定词性才能生效,如名词 n,具体参考https://github.com/fxsjy/jieba

      标签 含义 标签 含义 标签 含义 标签 含义
      n 普通名词 f 方位名词 s 处所名词 t 时间
      nr 人名 ns 地名 nt 机构名 nw 作品名
      nz 其他专名 v 普通动词 vd 动副词 vn 名动词
      a 形容词 ad 副形词 an 名形词 d 副词
      m 数量词 q 量词 r 代词 p 介词
      c 连词 u 助词 xc 其他虚词 w 标点符号
      PER 人名 LOC 地名 ORG 机构名 TIME 时间

文本聚类

词云图制作

模型使用 [wordcloud](GitHub - amueller/word_cloud: A little word cloud generator in Python) 模块进行生成

Clone this wiki locally