Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

7.12——文献阅读《Corpora Generation for Grammatical Error Correction》 #3

Open
li-aolong opened this issue Jul 15, 2019 · 0 comments
Labels
GEC 语法错误纠正(Grammatical Error Correction) NLP 自然语言处理(Natural Language Processing) 文献阅读 阅读的文献

Comments

@li-aolong
Copy link
Owner

Corpora Generation for Grammatical Error Correction(2017.12)

GEC缺乏丰富的并行数据,本文描述了两种使用公共维基百科数据,为GEC生成大型并行数据集的方法。

两种方法

  1. 使用来自于维基百科的历史修改记录作为增广的语料。
  2. 使用来自于回环翻译(RTT)的语料。从维基百科中提取目标句子,将其翻译成一种语言再翻译回来,可以得到相对干净的错误。语料库比人工导出的维基百科语料库的噪音小得多。但不同于人类错误,它产生的错误范围较小。

与真实数据相比所得到的数量:

1562929143892

迭代解码

语料中的许多句子包含了不止一个的语法错误,因此,单次解码不能保证把所有的语法错误全部纠正过来。本文提出了一个迭代解码的算法,使得模型有多次机会选择高置信度的变换纠错,直到找不到任何可以纠正的地方。

结果

使用来自维基百科作为增广语料的结果:

1562929223927

使用来自RTT回环翻译语料的结果:

1562929236398

融合两种数据集的结果:

1562929255765

结论

在Lang-8语料库上的微调和集合模型使得本文超越了CoNLL-2014基准和JFLEG任务,语料增广技术对于模型在低资源任务上的效果提升有着非常重要的影响。

@li-aolong li-aolong added GEC 语法错误纠正(Grammatical Error Correction) NLP 自然语言处理(Natural Language Processing) labels Jul 15, 2019
@li-aolong li-aolong self-assigned this Jul 15, 2019
@li-aolong li-aolong changed the title 7.12——文献阅读一篇 7.12——c Jul 16, 2019
@li-aolong li-aolong changed the title 7.12——c 7.12——文献阅读《Corpora Generation for Grammatical Error Correction》 Jul 16, 2019
@li-aolong li-aolong added the 文献阅读 阅读的文献 label Jul 17, 2019
@li-aolong li-aolong removed their assignment Jul 17, 2019
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
GEC 语法错误纠正(Grammatical Error Correction) NLP 自然语言处理(Natural Language Processing) 文献阅读 阅读的文献
Projects
None yet
Development

No branches or pull requests

1 participant