Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[2019] Multi-view Embedding-based Synonyms for Email Search #40

Open
IkokObi opened this issue Aug 15, 2019 · 4 comments
Open

[2019] Multi-view Embedding-based Synonyms for Email Search #40

IkokObi opened this issue Aug 15, 2019 · 4 comments
Labels
IR Information Retrieval Learn to rank ランク学習 NLP Natural Language processing

Comments

@IkokObi
Copy link
Collaborator

IkokObi commented Aug 15, 2019

ざっくり言うと

  • 検索対象の文書(今回はメール)を使って同義語を拡張する研究
  • 検索クエリとクリックされた文書のペア,一連の検索クエリ,ユーザ別の入力された検索クエリの3つをもとに異なる観点からembeddingを学習する
  • メール内で使われる単語など,固有の単語も含めて同義語を得ることが出来る

キーワード

  • synonyms expansion
  • email search

1. 情報

論文リンク

https://dl.acm.org/citation.cfm?id=3331250

著者

Cheng Li, Mingyang Zhang, Michael Bendersky, Hongbo Deng, Donald Metzler, Marc Najork (Google, Alibaba)

投稿日付

2019/7/21-25 (SIGIR 2019)

2. 先行研究と比べてどこがすごい?

  • 同義語の拡張は主にweb検索で研究されているが,メールについてはまだ少ない
  • word2vecで拡張する方法は調べられているが,ユーザのクリック情報や入力キーワードを活用した方法は無い

3. 技術や手法のキモはどこ?

  • 3つの観点からembeddingを学習する点
    • 検索クエリとクリックされた文書との関係
    • 一連の検索セッション内で入力された検索クエリ
    • ユーザごとの入力検索クエリ
  • 匿名化されたデータのため,bag-of-wordsの段階からしか用いることが出来ず,RNN等は使えない
  • 最終的な同義語の候補を出力する直前でランク学習を挟んで,リランクしている

4. どうやって有効だと検証した?

  • 1ヶ月分のGmailの検索ログからデータを収集
  • 5,859個の同義語を抽出し,メインの検証では10-foldsで精度検証

5. 議論はある?

6. 次に読むべき論文は?

@IkokObi IkokObi added NLP Natural Language processing IR Information Retrieval Learn to rank ランク学習 labels Aug 15, 2019
@IkokObi
Copy link
Collaborator Author

IkokObi commented Aug 15, 2019

7. 実装の詳細

大きく分けて3段階からなる

  1. 3つ観点からembeddingを学習し,類似度を計算して候補を出力
  2. Label propagation を用いてノイズを除去
  3. ランク学習でリランク

Embeddingについて

データの匿名化の関係で,文章は全てn-gramのbag-of-wordsになっていることに注意.3つの観点でembeddingする.

  1. 入力キーワードとクリックされたメール
  2. 一連の検索セッションで入力されたキーワード
  3. ユーザごとの入力キーワード

学習の目的関数は2つで,

  • 入力キーワードとクリックされたメールが正しいペアか否かの二値分類学習
  • word2vecに似た学習

また,略語などの語変化にも対応するため,文字n-gramも考慮してembeddingしている.

  • "h&m"の2-gramの場合,[ h, h&, &m, m , h&, h&m, &m ]も考慮するという感じ
  • 面白いが語彙数が増えないか心配

ランク学習について

RankLib libraryを用いて,複数の手法を比較している

@IkokObi
Copy link
Collaborator Author

IkokObi commented Aug 15, 2019

8. データセット

  • 1ヶ月分のGmailの検索ログからデータを収集
  • 177個のn-gramについて,5,859個の同義語を抽出

@IkokObi
Copy link
Collaborator Author

IkokObi commented Aug 15, 2019

9. 結果の詳細

  • 一番性能が安定しているのはCoordinate Ascent
  • 一般的でない単語も含まれているため,WordNetは性能が高くならない

スクリーンショット 2019-08-15 14 54 51

@IkokObi
Copy link
Collaborator Author

IkokObi commented Aug 15, 2019

雑感&メモ

  • 同義語を提案するには十分使えそう

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
IR Information Retrieval Learn to rank ランク学習 NLP Natural Language processing
Projects
None yet
Development

No branches or pull requests

1 participant