当前位置：网站首页>Remplacer l'auto - attention par MLP

Remplacer l'auto - attention par MLP

2022-07-02 07:51:00 【Mezereonxp】

Catalogue des articles

AvecMLPRemplacerSelf-Attention

AvecMLPRemplacerSelf-Attention

Un travail de Tsinghua présenté ici “Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks”

Remplacer par deux couches linéairesSelf-AttentionMécanismes,Enfin, l'amélioration de la vitesse tout en maintenant la précision.

Ce travail est surprenant,On peut utiliserMLPRemplacerAttentionMécanismes,Cela nous amène à reconsidérerAttentionLa nature de l'amélioration des performances.

TransformerDansSelf-AttentionMécanismes

Tout d'abord,,Comme le montre la figure ci - dessous：

self-attention

Nous donnons les résultats de sa formalisation ：
$\text{softmax}(\frac{QK^T}{\sqrt{d_k}})\\ F_{out} = AV$
Parmi eux, $\in \mathbb{R}^{N\times d'}$ En même temps $V\in \mathbb{R}^{N\times d}$

Ici., Nous donnons une version simplifiée ,Comme le montre la figure ci - dessous：

simplified self-attention

Ce qui signifie que $Q, K, V$ Toutes les caractéristiques d'entrée $F$ Remplacer, Il prend la forme de ：
$\text{softmax}(FF^T)\\ F_{out} = AF$

Et pourtant, La complexité du calcul ici est $O(dN^2)$ ,C'estAttention Un inconvénient majeur du mécanisme .

Attention extérieure (External Attention)

Comme le montre la figure ci - dessous:

external-attention

Deux matrices ont été introduites $M_k\in \mathbb{R}^{S\times d}$ Et $M_v \in\mathbb{R}^{S\times d} $, Remplacer l'original $K, V$

La formalisation est donnée ici directement ：
$\text{Norm}(FM_k^T)\\ F_{out} = AM_v$
Ce Design, Réduire la complexité à $O (d S N)$ , Le travail a révélé ,Quand $S\ll N$ Quand, Toujours capable de maintenir une précision suffisante .