通过一个中文文本分类问题系统实现了各种分类方法
数据来源于搜狗新闻
有car,entertainment,military,sports,technology五种类别。
原始数据比较大,没有上传,分词,去除停用词之后的数据放在processed_data文件夹下。
主要实现了以下分类算法:
- NB(朴素贝叶斯)
- SVM(支持向量机)
- fasttext
- text_CNN
- text_RNN
- text_RCNN
- text_Bi_LSTM
- text_Attention_Bi_LSTM
- HAN(Hierarchical Attention Network)
- ELMo
分类准确率都在90%附近,没有进行太多预处理,只为熟悉算法的使用。
基于tensorflow2.0实现,可以在win和linux下运行。觉得有用的点个赞,谢谢。