7.16——NLP相关了解 #5

li-aolong · 2019-07-17T01:20:26Z

处理流程

语料预处理
- 语料清洗：包括人工去重，对齐，删除，标注，规则提取内容，正则匹配，实体提取等
- 分词：中文语料需要分词
- 词性标注：基于规则，基于统计
- 去停用词：不是必须的
特征工程
- 词袋模型：统计词频
- 词向量：将文字转换成向量矩阵进行计算，主要包括跳字模型(Skip-Gram)和连续词袋模型(Continuous Bag of Words)。还有Word2Vec，Doc2Vec，WordRank，FastText等
特征选择
- 文本特征一般都是词语，具有语义信息
模型训练
- 有监督和无监督机器学习模型；深度学习模型等
评价指标
- 错误率，精度，准确率，精确度，召回率，F1衡量
- ROC曲线，AUC