Skip to content

2020阿里云天池大数据竞赛-中医药命名实体识别挑战赛

Notifications You must be signed in to change notification settings

menghuanlater/Tianchi2020ChineseMedicineNER

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Tianchi2020ChineseMedicineNER

2020阿里云天池大数据竞赛-中医药命名实体识别挑战赛

  • 初赛: 0.7680, 排名:35/1682(single model)
  • 复赛: 0.7128, 排名: 20/1682(single model)

核心思路: 利用Machine Reading Comprehension的思路来解决NER问题(思路来源: ACL2020 A Unified MRC Framework for Named Entity Recognition)

数据处理: preprocess.py, 构造(Query, Answer, Context)三元组, 对于较长文本, 采用滑动窗口法处理(等于将长文本拆分成多个短文本, 为了尽可能保持上下文连续性, 后面的每个短文本都会有一部分其前序文本的片段, 具体看构造流程)

模型训练: RoBERTa + Finetune(MRC任务利用BERT解决的最基本的方法), 与参考的那篇论文相比, 我们模型去除了span loss, 因为加了span loss模型都无法训练. 同时我们也测试了focal loss, 但似乎效果并没有提升

个人感悟:玄学比赛(qaq), 复赛我的小伙伴用了很多方法, 但效果不增反降, 最佳的成绩居然还是我们初赛的baseline模型, 炼丹真奇妙

About

2020阿里云天池大数据竞赛-中医药命名实体识别挑战赛

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages