Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

8.6——使用m2scorer进行测试模型 #19

Open
li-aolong opened this issue Aug 6, 2019 · 7 comments
Open

8.6——使用m2scorer进行测试模型 #19

li-aolong opened this issue Aug 6, 2019 · 7 comments
Labels
GEC 语法错误纠正(Grammatical Error Correction) NLP 自然语言处理(Natural Language Processing) 开源项目 开源的项目

Comments

@li-aolong
Copy link
Owner

  • 使用seq2seq_attion模型在1347639个平行句子对上进行了训练,得到7.7MB大小的模型

  • 带有金标准的测试集有2000条,使用该测试集进行模型性能测试

  • 金标准数据集的格式为:

    • S <原始句子1>
      A <开始位置> <结束位置>|||<错误类型>|||<纠正1>||<纠正2||..||纠正N|||<required>|||<评论>|||<注释者 id>
      A <开始位置> <结束位置>|||<错误类型>|||<纠正1>||<纠正2||..||纠正N|||<required>|||<评论>|||<注释者 id>
      
    • 每个源句应出现在以“S”开头的单行上

    • 每个源句子后跟零个或多个注释

    • 每个注释都在以“A”开头的单独行上

    • 句子由一个或多个空行分隔

    • 源语句需要以与系统输出相同的方式进行标记化

m2scorer

  • 该程序可以评估语法错误纠正系统的性能,评价指标有三个:精度召回率F0.5值

  • 首先使用infer.py文件对测试集原始文件test.txt进行纠正,得到系统纠正后文件test_system.txt

  • 然后使用m2scorer.py文件,利用金标准进行计算:

    • python m2scorer.py test_system.txt test_gold.txt
  • 得到的结果为:

    • Precision   : 22.87
      Recall      : 21.68
      F_0.5       : 22.62
      
  • 业界CGED纠错比赛结果如下:

    • industry_out
    • 可以看到该模型的精度偏低,但是召回率较高,F0.5值水平一般
@li-aolong li-aolong added GEC 语法错误纠正(Grammatical Error Correction) NLP 自然语言处理(Natural Language Processing) 开源项目 开源的项目 labels Aug 6, 2019
@ljggg
Copy link

ljggg commented Sep 19, 2019

博主,请问如何使用m2scorer获得gold标准?

@li-aolong
Copy link
Owner Author

博主,请问如何使用m2scorer获得gold标准?

我也是在这看到的
https://github.com/swjtu-gec/zlyang-master-dissertation-code/tree/master/data/test/nlpcc2018-test

@ljggg
Copy link

ljggg commented Sep 19, 2019

博主,请问如何使用m2scorer获得gold标准?

我也是在这看到的
https://github.com/swjtu-gec/zlyang-master-dissertation-code/tree/master/data/test/nlpcc2018-test

我现在也有他这份gold.01, 但是我想生成一份新的文本的gold标准,有点不太理解如何生成

@li-aolong
Copy link
Owner Author

博主,请问如何使用m2scorer获得gold标准?

我也是在这看到的
https://github.com/swjtu-gec/zlyang-master-dissertation-code/tree/master/data/test/nlpcc2018-test

我现在也有他这份gold.01, 但是我想生成一份新的文本的gold标准,有点不太理解如何生成

生成我也不会

@ljggg
Copy link

ljggg commented Sep 19, 2019

博主,请问如何使用m2scorer获得gold标准?

我也是在这看到的
https://github.com/swjtu-gec/zlyang-master-dissertation-code/tree/master/data/test/nlpcc2018-test

我现在也有他这份gold.01, 但是我想生成一份新的文本的gold标准,有点不太理解如何生成

生成我也不会

好滴,感谢楼主!我再研究一下

@clearloveclearlove
Copy link

博主 请问纠正后的test_system.txt需要是分好词的吗,分词的标准是不是确定的,还有就是infer.py是不是已经自带分词后在生成txt文件

@li-aolong
Copy link
Owner Author

博主 请问纠正后的test_system.txt需要是分好词的吗,分词的标准是不是确定的,还有就是infer.py是不是已经自带分词后在生成txt文件

好多我忘了,但是test_system.txt应该不是分好词的,是一个完整的句子,分词标准好像也不确定

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
GEC 语法错误纠正(Grammatical Error Correction) NLP 自然语言处理(Natural Language Processing) 开源项目 开源的项目
Projects
None yet
Development

No branches or pull requests

3 participants