Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[2018]BREAKING THE SOFTMAX BOTTLENECK: A HIGH-RANK RNN LANGUAGE MODEL #19

Open
takumi7110 opened this issue Oct 3, 2023 · 0 comments
Open

Comments

@takumi7110
Copy link
Owner

【背景】
• 言語モデリングは、Nグラムからニューラルモデルへ進化してきた。
• RNNを使用したニューラルモデルは、次のトークンの条件付き分布をモデル化する。
• しかし、RNNとSoftmaxの組み合わせでは表現力に制限がある。
【目的】
• Softmaxベースの言語モデルの表現力を調査する。
• Softmaxボトルネックと呼ばれる問題を解決する方法を提案する。
【手法】
• 言語モデリングを行列因子分解の問題として定式化する。
• SoftmaxベースのRNNモデルが行列因子分解問題と等価であることを示す。
• 分散単語埋め込みを使用したSoftmaxの表現力の不十分さを示す。
• Mixture of Softmaxes(MoS)という手法を提案し、Softmaxボトルネックを解決する。
【実験方法】
• Penn TreebankとWikiText-2のデータセットでパフォーマンスを評価する。
• MoSはパープレキシティで最先端の手法を改善することを示す。
【実験結果】
• Penn TreebankとWikiText-2のパープレキシティで最先端の手法を改善する。
• MoSは大規模な1B Wordデータセットでもベースラインを上回るパフォーマンスを示す。
【考察】
• Softmaxボトルネックの問題を特定し、言語モデリングを行列因子分解問題として定式化する。
• MoSはシンプルかつ効果的な手法であり、最先端の手法を大幅に改善することを示す。

https://arxiv.org/pdf/1711.03953.pdf

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant