2022-07-02 06:26:00
1 Background and Motivation
脸部的关键点, 如鼻尖,眼中心,为其他诸如人脸识别 / 表情识别 / 3D 人脸重建等脸部分析任务提供了丰富的 geometric information
One crucial aspect of deep learning is to define a loss function leading to better-learnt representation from underlying data.
本文作者分析了不同 loss 在人脸关键点检测任务中的效果,提出了新的损失 wing loss
2 Related Work
- 分析了不同回归 loss 的优缺点,提出 wing loss 用于人脸关键点定位
- 提出 pose-based data balance
- 提出新的人脸关键点检测的网络结构
3 Advantages / Contributions
Network Architectures
预测热力图Dealing with Pose Variations
multiview models
use 3D face models
multi-task learning(相互促进)Cascaded Networks
4 Method
L1 / L2 / smooth L1
L2 loss is sensitive to outliers
smooth L1 loss 是 L1 和 L2 的组合, 也是 a special case of the Huber loss
作者通过分析 AFLW 数据集上的 NME(Normalised Mean Error) 的累计分布直方图发现
loss functions analysed in the last section(L1 / L2 / Smooth L1) perform well for large errors(也就是大致红色框框的区域,误差比较大,但对应的样本是比较少的)
more attention should be paid to small and medium range errors(大致是绿色框框区域,NME 偏 medium 和 small,样本非常多——曲线很陡峭)
误差为 x x x 的情况下
L1 损失梯度量级为 1,优化步长(optimal step sizes)则为 x x x,误差越大,优化的次数越多
L2 损失梯度量级为 x x x,优化步长为 1,误差越大,梯度越大
In both cases the update towards the solution will be dominated by larger errors
也即,it is hard to correct relatively small displacements
作者引入 ln x x x loss 来缓解上述 L1 / L2 loss 过于受大误差影响的缺点,
ln x x x 梯度量级 1 x \frac{1}{x} x1,优化步长为 x 2 x^2 x2,小误差时,大梯度小步长,大误差时,小梯度大步长
考虑到人脸关键点定位任务初始时误差较大,为加快收敛速度,作者引入 L1 loss(L2对 outline 敏感),整体设计如下
C = w − w l n ( 1 + ∣ w ∣ / ε ) C = w - wln(1+|w|/\varepsilon ) C=w−wln(1+∣w∣/ε) 为常数,保证分段函数的平滑性
ε \varepsilon ε 不宜设置得过小,根据梯度 − w ε + x -\frac{w}{\varepsilon+x} −ε+xw 可以看出, ε \varepsilon ε 过小时,面对小误差,可能会梯度爆炸
2)Pose-based data balancing
为了解决 extreme pose variations
Procrustes Analysis + PAC 来分析数据集人脸的形状分布
原理来自 《Master Opencv…读书笔记》非刚性人脸跟踪 II
The distribution of projection coefficient of the training samples is represented by a histogram with K bins 结果如下
Pose-based data balancing 策略就是把 bin 比较少的位置对应的人脸样本,重复采样,使其更加均衡
重点在 loss 和样本策略上,网络结构设计的比较简单
Pose-based data balancing 缓解了 out-of-plane head rotations 问题
in-plane head rotations and inaccurate bounding boxes output from a poor face detector 等
于是作者 cascade 了一下
第一阶段 CNN6,输入 64x64x3,输出关键点+人脸框精修偏移量?(refine the input image for the second network by removing the in-plane head rotation and correcting the bounding box,看不出来太多的信息量)
第一阶段 CNN7,输入 128x127x3,输出关键点
5 Experiments
5.1 Datasets and Metrics
AFLW:19个点,AFLW protocol 评价指标——NME + 人脸框 width
300W:68个点,NME + inter-pupil distance
5.2 Experiments
AFLW 数据集上,不同 loss 的比较
探索下 wing loss 中 w w w 和 ε \varepsilon ε 超参数的设定
2)Pose-based data balancing 策略
即使 CNN 配合 L1 和 L2 loss,也超级猛,说明 Pose-based data balancing 策略非常有效
3)Run time and network architectures
6 Conclusion(own) / Future work
CNN6 的输出到底是啥,哈哈哈!得撸下代码
wing loss,图4 是灵感的核心来源
Pose-based data balancing
图片来自如何旋转图像中的人脸? | CVPR 2018in-plane / out-of-plane,引用下两个看到的回答
应该是应力或变形发生在一个 xoy 平面内,就叫 in-plane,有z方向的分力或者位移就叫 out-of-plane
变形相对于一个平面来说,有的是在这个平面内的变形,有的变形是离面的变形,就是对应的 in-plane 和 out-of-plane
