Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[2021]SOFT: Softmax-free Transformer with Linear Complexity #24

Open
takumi7110 opened this issue Oct 3, 2023 · 0 comments
Open

[2021]SOFT: Softmax-free Transformer with Linear Complexity #24

takumi7110 opened this issue Oct 3, 2023 · 0 comments

Comments

@takumi7110
Copy link
Owner

【背景】
• 自己注意モジュールの使用は、計算とメモリ使用量の両方で二次の複雑さを引き起こす。
• 長いトークンシーケンスを扱う場合、高い空間分解能が必要な視覚認識タスクにおいて問題となる。
【目的】
• 既存のTransformerの制約は、softmax自己注意の使用に起因している。
• SOFTは、softmaxを使用しない自己注意メカニズムを提案する。
• SOFTは、ガウスカーネル関数と低ランク行列分解を使用して自己注意行列を近似する。
【手法】
• SOFTは、ガウスカーネルを使用して類似性関数を定義し、softmax正規化を必要としない。
• 低ランク行列分解アルゴリズムを使用して近似を行う。
【実験方法】
• ImageNetデータセットで実験を行い、既存のViTの計算効率を改善することを示す。
• 異なるトークンシーケンス長を持つバックボーンアーキテクチャを設計する。
【実験結果】
• SOFTモデルは、既存のViTの計算効率を大幅に改善することが実験で示された。
• 同じモデルサイズであるにもかかわらず、SOFTはCNNおよびViTの最先端モデルよりも優れた精度/複雑さのトレードオフを実現する。
【考察】
• 既存の効率的なTransformerの制約は、softmax自己注意の使用に起因していることが明らかになった。
• SOFTは、softmaxを使用しない自己注意メカニズムを導入することで、計算とメモリの両方の複雑さを線形にすることができる。
• SOFTモデルは、高い空間分解能が必要な視覚認識タスクにおいて優れたトレードオフを実現する。

https://arxiv.org/abs/2110.11945

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant