当前位置:网站首页>[NAS1](2021CVPR)AttentiveNAS: Improving Neural Architecture Search via Attentive Sampling (未完)
[NAS1](2021CVPR)AttentiveNAS: Improving Neural Architecture Search via Attentive Sampling (未完)
2022-07-05 08:16:00 【三晚不过弦一郎】
【注】:推荐先了解多目标优化问题中PF的概念,及SPOS的基本流程。
一句话总结:本文改进了SPOS训练过程中的均匀采样策略(best up, worst up),有效辨识PF,进一步提升模型精度。
Abstract
问题背景:NAS已经在设计精确高效得SOTA模型上取得了巨大的成果。当前,两阶段NAS,如BigNAS解耦了模型训练和搜索过程并实现了很好的效果。两阶段NAS需要在训练过程中从搜索空间采样,其直接影响最终搜索到的模型的精度。
提出问题:由于均匀采样的简单易行,已经被广泛应用于两阶段NAS的训练过程中,但是其和模型性能的PF无关,会丧失进一步提升模型精度的机会。
本文做法:致力于改善采样策略并提出AttentiveNAS,有效辨识训练过程中的PF前沿。
实验结果:搜索到了模型家族,称为AttentiveNAS models,在ImageNet上将top-1的精度从77.3%提升至80.7%。在只有491MFLOPs的前提下,实现ImageNet上80.1%的精度。
1. Introduction
NAS发展回顾:NAS为自动化DNN设计提供了一个有利的工具。其同时优化模型架构和模型参数,创造了一个具有挑战性的嵌套优化问题。传统的NAS利用进化搜索或强化学习,但这些方法需要在单次实验中训练上千个模型,其计算代价是十分昂贵的。当前的NAS将将参数训练和架构优化解耦为2个独立的阶段。
- 第一阶段通过权重共享优化搜索空间内所有候选网络的参数,使得所有网络在训练结束时都同时达到最优性能;
- 第二阶段利用典型的搜索算法,如进化算法在各种资源约束下搜索最优模型。
这样的NAS范式搜索十分高效且性能优异。
发现科学问题:两阶段NAS的成功强烈依赖于第一阶段中候选网络的训练。为了让所有候选网络都达到最优性能,他们从搜索空间中采样,并通过one-step stochastic gradient descent (SGD)优化每个样本。其关键在于弄清楚在每个SGD步骤中采样哪个网络。现存的方法采用均匀采样策略来采样网络,实验已经证明了均匀采样策略使得NAS的训练和搜索阶段无关,即训练阶段未考虑如何改进PF,其无法进一步提升网络性能。
本文工作:提出AttentiveNAS改善均匀采样,更关注于可能产生更好PF的网络架构。本文具体回答了以下2个问题:
- 在训练时应该采样哪些候选网络?
- 我们应该如何在不引入过多计算代价的前提下有效采样这些候选网络?
对于第一个问题,本文探索了2个不同的采样策略。第一个策略BestUp——最优PF感知采样策略,将更多的训练代价放在提升当前最优PF上;第二个策略WorstUp,关注于提升最差性能权衡的候选网络,即最差Pareto模型,类似于hard example mining。推动最差 Pareto 集可以帮助更新权重共享网络中最优化的参数,从而使所有参数都得到充分训练。
对于第二个问题,确定在最优/最差PF上的网络不是直接简单的。我们利用训练损失和精度提出了2种方法。
2. Related Work and Background
NAS的公式化描述:

解决NAS,即公式(1)的早期方法:经常基于强化学习或进化算法,这些方法需要从头训练大量的网络以得到精准的性能估计,其计算十分昂贵。
当前方法用权重共享:经常训练一个权重共享的网络并采样子网,通过继承权中的方式直接获得有效的子网性能估计。该方法缓解了从头训练所有网络的计算代价并显著加速NAS过程。
基于权重共享的NAS通过连续差分松弛求解:基于权重共享的NAS常通过连续差分松弛和梯度下降求解约束的(1)式。但这些方法对诸如随机种子/数据划分等超参数十分敏感,不同DNNs的性能排序相关性也在不同的实验中变化很大,需要多轮反复试验才能获得良好的性能。并且继承来的权重也往往是次优的。因此,这种方法常常需要重新从头训练发现的网络架构,又引入了额外的计算负担。
2.1 Two-stage NAS
提出问题:式(1)将搜索范围限制到了一个很小的子网内,产生一个具有挑战性的优化问题——无法利用过参数化。此外,式(1)仅限于一个单一的资源约束。 在各种资源限制下优化 DNN 通常需要多次独立搜索。
两阶段NAS介绍:将优化(1)分解为2个阶段:(1) 无约束的预训练:通过权重共享联合优化所有可能候选网络;(2)资源约束的搜索:在给定资源约束的前提下找到最好的子网。在该方向最近的工作包括BigNAS, SPOS, FairNAS, OFA, HAT等。

3. NAS via Attentive Samping
边栏推荐
- Makefile application
- OC and OD gate circuit
- Halcon's practice based on shape template matching [1]
- Drive LED -- GPIO control
- [tutorial 15 of trio basic from introduction to proficiency] trio free serial communication
- Soem EtherCAT source code analysis I (data type definition)
- Shape template matching based on Halcon learning [VII] reuse_ model. Hdev routine
- Improve lighting C program
- Design a clock frequency division circuit that can be switched arbitrarily
- [paper reading] the latest transfer ability in deep learning: a survey in 2022
猜你喜欢

Volatile of C language

STM32 --- NVIC interrupt

Semiconductor devices (I) PN junction

Working principle and type selection of common mode inductor

Process communication mode between different hosts -- socket
![[trio basic from introduction to mastery tutorial XIV] trio realizes unit axis multi-color code capture](/img/c5/22c6148873508b9205972e1ad970a3.jpg)
[trio basic from introduction to mastery tutorial XIV] trio realizes unit axis multi-color code capture

Matlab2018b problem solving when installing embedded coder support package for stmicroelectronic

Classic application of MOS transistor circuit design (2) - switch circuit design

【云原生 | 从零开始学Kubernetes】三、Kubernetes集群管理工具kubectl

Stablq of linked list
随机推荐
Sql Server的存储过程详解
STM32 --- NVIC interrupt
matlab timeserise
Verilog -- state machine coding method
STM32 --- configuration of external interrupt
[tutorial 15 of trio basic from introduction to proficiency] trio free serial communication
OC and OD gate circuit
My-basic application 2: my-basic installation and operation
【云原生 | 从零开始学Kubernetes】三、Kubernetes集群管理工具kubectl
On boost circuit
Detailed explanation of SQL server stored procedures
Let's briefly talk about the chips commonly used in mobile phones - OVP chips
Factors affecting the quality of slip rings in production
DCDC circuit - function of bootstrap capacitor
[trio basic tutorial 18 from introduction to proficiency] trio motion controller UDP fast exchange data communication
Volatile of C language
Charge pump boost principle - this article will give you a simple understanding
Measurement fitting based on Halcon learning [III] PM_ measure_ board. Hdev routine
Weidongshan Internet of things learning lesson 1
Explication de la procédure stockée pour SQL Server