Skip to content
This repository has been archived by the owner on Apr 10, 2019. It is now read-only.

A Survey of Sentence Similarity

Hiroki Nakayama edited this page Apr 10, 2017 · 9 revisions

文間類似度はSemEvalのTask1で行われている。 まず全体像をつかむために以下の論文を読む。

具体的な手法については以下の論文を調査してみる。

Quoraによるとこの2つが有望そう。ただし、TF-KLDの方は評価が一つのデータセットでしか行われていない。

State-of-the-artな結果については aclweb に一覧で表示されているので参考にする。

SemEval-2016 Task 1

SemEvalのTask1は英語の文間の類似度を求めるタスクを扱っている。具体的なドメインとしては4つある。

  • Plagiarism Detection(盗作検知)
  • Post-Edited Machine Translation
  • Question-Answering(質問応答)
  • News Article Headlines(記事のヘッダ)

学習用データセットには6段階のラベルが付いており、0は全く類似していない、5が完全に同じ内容としている。 評価データセットはクラウドソーシングを使って作っている。 評価は人間が付与したラベルとの間でピアソンの相関係数を使って行われている。

Word Mover's Distance

以下でわかりやすく解説してくれている

Python実装

TF-KLD