当前位置：网站首页>AdaViT——自适应选择计算结构的动态网络

AdaViT——自适应选择计算结构的动态网络

2022-07-06 14:46:00 【Law-Yao】

ViT基于其自身结构的特点或优势，具备较好的抽象语义表达或特征表征能力：

然而，针对不同难易程度的样本，ViT实际计算所需的Patch数量、Attention head数目或网络层数可以存在区别，因此可构造样本驱动形式的条件计算（Sample-driven conditional computation）。

AdaViT通过设计动态网络结构，可根据输入样本的难易程度、自适应选择最佳的计算结构，包括Patch selection、Attention head selection以及Block selection，具体方法描述如下：

Decision network：每个Transformer layer都会设置一个决策网络（由三个线性层构成），决策网络的输入为当前Transformer layer的输入特征，其输出为结构参数，分别用以实现Patch selection、Attention head selection和Block selection。结构参数进一步通过Gumbel-softmax采样，生成Binary mask：

Patch selection：除Class token之外，其余Token会执行自适应选择（Keep the most informative tokens）：

Head selection：针对复杂场景或嘈杂背景，通常需要更好的子空间特征表达与多Head信息融合，以表达信息多样性；但对于简单样本，无需较复杂的多样性表达。Head selection有两种实现形式，一是将Mask为0的Head输出替换为全一张量（Partial deactivation），二是直接消除相应的Attention Head（Full deactivation）：