[2019] Multi-view Embedding-based Synonyms for Email Search #40

IkokObi · 2019-08-15T05:31:22Z

ざっくり言うと

検索対象の文書(今回はメール)を使って同義語を拡張する研究
検索クエリとクリックされた文書のペア，一連の検索クエリ，ユーザ別の入力された検索クエリの3つをもとに異なる観点からembeddingを学習する
メール内で使われる単語など，固有の単語も含めて同義語を得ることが出来る

キーワード

synonyms expansion
email search

1. 情報

論文リンク

https://dl.acm.org/citation.cfm?id=3331250

著者

Cheng Li, Mingyang Zhang, Michael Bendersky, Hongbo Deng, Donald Metzler, Marc Najork (Google, Alibaba)

投稿日付

2019/7/21-25 (SIGIR 2019)

2. 先行研究と比べてどこがすごい？

同義語の拡張は主にweb検索で研究されているが，メールについてはまだ少ない
word2vecで拡張する方法は調べられているが，ユーザのクリック情報や入力キーワードを活用した方法は無い

3. 技術や手法のキモはどこ？

3つの観点からembeddingを学習する点
- 検索クエリとクリックされた文書との関係
- 一連の検索セッション内で入力された検索クエリ
- ユーザごとの入力検索クエリ
匿名化されたデータのため，bag-of-wordsの段階からしか用いることが出来ず，RNN等は使えない
最終的な同義語の候補を出力する直前でランク学習を挟んで，リランクしている

4. どうやって有効だと検証した？

1ヶ月分のGmailの検索ログからデータを収集
5,859個の同義語を抽出し，メインの検証では10-foldsで精度検証

5. 議論はある？

6. 次に読むべき論文は？

Label Propagation and Quadratic Criterion
- Yoshua Bengio, Olivier Delalleau, and Nicolas Le Roux
- 2006/9
- https://www.microsoft.com/en-us/research/publication/label-propagation-and-quadratic-criterion/
- 本文中Label Propagationフィルタリングの引用となっている
Linear feature-based models for information retrieval
- Donald Metzler and W Bruce Croft
- 2007/6
- https://dl.acm.org/citation.cfm?id=1265494
- 性能が安定していたCoordinate Ascentの論文．線形予測モデル？

IkokObi · 2019-08-15T05:50:26Z

7. 実装の詳細

大きく分けて3段階からなる

3つ観点からembeddingを学習し，類似度を計算して候補を出力
Label propagation を用いてノイズを除去
ランク学習でリランク

Embeddingについて

データの匿名化の関係で，文章は全てn-gramのbag-of-wordsになっていることに注意．3つの観点でembeddingする．

入力キーワードとクリックされたメール
一連の検索セッションで入力されたキーワード
ユーザごとの入力キーワード

学習の目的関数は2つで，

入力キーワードとクリックされたメールが正しいペアか否かの二値分類学習
word2vecに似た学習

また，略語などの語変化にも対応するため，文字n-gramも考慮してembeddingしている．

"h&m"の2-gramの場合，[ h, h&, &m, m , h&, h&m, &m ]も考慮するという感じ
面白いが語彙数が増えないか心配

ランク学習について

RankLib libraryを用いて，複数の手法を比較している

IkokObi · 2019-08-15T05:51:40Z

8. データセット

1ヶ月分のGmailの検索ログからデータを収集
177個のn-gramについて，5,859個の同義語を抽出

IkokObi · 2019-08-15T05:57:06Z

9. 結果の詳細

一番性能が安定しているのはCoordinate Ascent
一般的でない単語も含まれているため，WordNetは性能が高くならない

IkokObi · 2019-08-15T05:57:11Z

雑感&メモ

同義語を提案するには十分使えそう

IkokObi added NLP Natural Language processing IR Information Retrieval Learn to rank ランク学習 labels Aug 15, 2019

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[2019] Multi-view Embedding-based Synonyms for Email Search #40

[2019] Multi-view Embedding-based Synonyms for Email Search #40

IkokObi commented Aug 15, 2019 •

edited

Loading

IkokObi commented Aug 15, 2019 •

edited

Loading

IkokObi commented Aug 15, 2019

IkokObi commented Aug 15, 2019

IkokObi commented Aug 15, 2019

[2019] Multi-view Embedding-based Synonyms for Email Search #40

[2019] Multi-view Embedding-based Synonyms for Email Search #40

Comments

IkokObi commented Aug 15, 2019 • edited Loading

ざっくり言うと

キーワード

1. 情報

論文リンク

著者

投稿日付

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

IkokObi commented Aug 15, 2019 • edited Loading

7. 実装の詳細

Embeddingについて

ランク学習について

IkokObi commented Aug 15, 2019

8. データセット

IkokObi commented Aug 15, 2019

9. 結果の詳細

IkokObi commented Aug 15, 2019

雑感&メモ

IkokObi commented Aug 15, 2019 •

edited

Loading

IkokObi commented Aug 15, 2019 •

edited

Loading