当前位置:网站首页>注意力机制的详细理解

注意力机制的详细理解

2022-08-03 17:40:00 如意的小家

一、线性Attention的探索:Attention必须有个Softmax吗?
在这里插入图片描述
前几天笔者读到了论文 Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention [1] ,了解到了线性化 Attention (Linear Attention)这个探索点,继而阅读了一些相关文献,有一些不错的收获,最后将自己对线性化 Attention 的理解汇总在此文中.
Attention
在这里插入图片描述
相关解读可以参考笔者的一文读懂「Attention is All You Need」| 附代码实现,以及它的一些改进工作也可以参考突破瓶颈,打造更强大的 Transformer [3]、Google 新作 Synthesizer:我们还不够了解自注意力,这里就不多深入介绍了。
1.1 摘掉Softmax
读者也许想不到,制约 Attention 性能的关键因素,其实是定义里边的 Softmax!事实上,简单地推导一下就可以得到这个结论。
在这里插入图片描述注:关于矩阵乘法算法复杂度的计算
1).矩阵乘法
对于矩阵A(n×m),B(m×n), 这里A(n×m)表示A是n行乘m列的矩阵。
如果A×B,那么复杂度为O(n×m×n),即O(n^2×m) 。进一步思考,为什么呢,直接代码解释:

 for(i=0;i<n;i++){
     //A矩阵中的n
        for(j=0;j<m;j++){
      //A矩阵中的m 或者B矩阵中的m ,一样的
            for(k=0;k<n;k++){
     //B矩阵中的n
                C[i][j]= C[i][j]+A[i][k]*B[k][j]; 
             } 
         } 
     }

一个for循环是O(n),这里是三个for循环,所以为O(n×m×n)。(ps:个人感觉还是看代码比较好理解,后面三个矩阵乘法时,就会更加体会到)
对于矩阵A(m×n),B(n×m)和C(m×n), 这里A(m×n)表示A是m行乘n列的矩阵。(PS:这里记号和前面不同,主要方便和知乎截图符号一致)

  • A×B,那么复杂度为O(m×n×m),即O(m^2×n) 。
  • D(m×m)=A×B运算完后在和C运算。
  • D×C,那么复杂度为O(m×m×n),即O(m^2×n) 。
    在这里插入图片描述
    为了方面理解,笔者直接上代码,这样清楚一点。
int A(m*n),
int B(n*m)
int C(m*n)
 
int D(m*m)
int E(m*n)
 
//先计算D=A*B
 for(i=0;i<m;i++){
     //A矩阵中的m
        for(j=0;j<n;j++){
      //A矩阵中的n 或者B矩阵中的n ,一样的
            for(k=0;k<m;k++){
     //B矩阵中的m
                D[i][j]= D[i][j]+A[i][k]*B[k][j]; 
             } 
         } 
     }
 
//在计算E=D*C
 
 for(i=0;i<m;i++){
     //D矩阵中的m
        for(j=0;j<m;j++){
      //D矩阵中的m 或者C矩阵中的m ,一样的
            for(k=0;k<n;k++){
     //C矩阵中的n
                E[i][j]= E[i][j]+A[i][k]*B[k][j]; 
             } 
         } 
     }

在这里插入图片描述

原网站

版权声明
本文为[如意的小家]所创,转载请带上原文链接,感谢
https://blog.csdn.net/qq_36717487/article/details/126142572