Tianchi2020ChineseMedicineNER

2020阿里云天池大数据竞赛-中医药命名实体识别挑战赛

核心思路: 利用Machine Reading Comprehension的思路来解决NER问题(思路来源: ACL2020 A Unified MRC Framework for Named Entity Recognition)

数据处理: preprocess.py, 构造(Query, Answer, Context)三元组, 对于较长文本, 采用滑动窗口法处理(等于将长文本拆分成多个短文本, 为了尽可能保持上下文连续性, 后面的每个短文本都会有一部分其前序文本的片段, 具体看构造流程)

模型训练: RoBERTa + Finetune(MRC任务利用BERT解决的最基本的方法), 与参考的那篇论文相比, 我们模型去除了span loss, 因为加了span loss模型都无法训练. 同时我们也测试了focal loss, 但似乎效果并没有提升

个人感悟：玄学比赛(qaq), 复赛我的小伙伴用了很多方法, 但效果不增反降, 最佳的成绩居然还是我们初赛的baseline模型, 炼丹真奇妙

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
DataSet		DataSet
ModelStorage		ModelStorage
RunLog		RunLog
Submit		Submit
README.md		README.md
RoBERTa_MRC.py		RoBERTa_MRC.py
preprocess.py		preprocess.py

Provide feedback