当前位置：网站首页>用MLP代替掉Self-Attention

用MLP代替掉Self-Attention

2022-07-02 07:51:00 【MezereonXP】

這次介紹的清華的一個工作 “Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks”

用兩個線性層代替掉Self-Attention機制，最終實現了在保持精度的同時實現速度的提昇。

這個工作讓人意外的是，我們可以使用MLP代替掉Attention機制，這使我們應該重新好好考慮Attention帶來的性能提昇的本質。

首先，如下圖所示：

self-attention

我們給出其形式化的結果：
$\text{softmax}(\frac{QK^T}{\sqrt{d_k}})\\ F_{out} = AV$
其中， $\in \mathbb{R}^{N\times d'}$ 同時 $V\in \mathbb{R}^{N\times d}$

這裏，我們給出一個簡化版本，如下圖所示：

simplified self-attention

也就是將 $Q, K, V$ 都以輸入特征 $F$ 代替掉，其形式化為：
$\text{softmax}(FF^T)\\ F_{out} = AF$

然而，這裏面的計算複雜度為 $O(dN^2)$ ，這是Attention機制的一個較大的缺點。

如下圖所示:

external-attention

引入了兩個矩陣 $M_k\in \mathbb{R}^{S\times d}$ 以及 $M_v \in\mathbb{R}^{S\times d} $, 代替掉原來的 $K, V$

這裏直接給出其形式化：
$\text{Norm}(FM_k^T)\\ F_{out} = AM_v$
這種設計，將複雜度降低到 $O (d S N)$ , 該工作發現，當 $S\ll N$ 的時候，仍然能够保持足够的精度。

其中的 $\text{Norm}(\cdot)$ 操作是先對列進行Softmax，然後對行進行歸一化。

首先，文章將Transformer中的Attention機制替換掉，然後在各類任務上進行測試，包括：

這裏只給出部分結果，簡單說明一下替換後的精度損失情况。

image-cls

semantic-segmentation

generation

可以看到，在不同的任務上，基本上不會有精度損失。

版权声明
本文为[MezereonXP]所创，转载请带上原文链接，感谢
https://yzsam.com/2022/183/202207020623040693.html