当前位置：网站首页>【RS采样】A Gain-Tuning Dynamic Negative Sampler for Recommendation (WWW 2022)

【RS采样】A Gain-Tuning Dynamic Negative Sampler for Recommendation (WWW 2022)

2022-07-25 11:11:00 【chad_lee】

《Simplify and Robustify Negative Sampling》 NIPS 2020

这篇文章实验观察到虽然False Negative和Hard Negative都会有较大的Socre，但是False Negative有更低的预测方差。所以提出一个Simplify and Robustify Negative Sampling方法，在训练epoch $t$ 时，根据前5个epoch的训练记录，预测评分高、方差大的样本作为Hard Negative：

在这里插入图片描述

A Gain-Tuning Dynamic Negative Sampler for Recommendation (WWW 2022)

现有的挖掘RS难负样本的方法只想要挖掘训练过程梯度贡献大的样本（预测和标签差距大的），在RS场景中这样很容易导致选择假负样本（False Negative、missing data），从而导致过拟合训练数据集。

文章提出一个基于期望增益的采样器，在训练过程中根据正负样本之间差距的期望的变化，动态指导负采样，可以识别假负样本。

在这里插入图片描述

增益感知负采样器

衡量一个物品 $j$ 是不是用户 $u$ 的真实负样本的方法：
$\mathcal{H}^{t}(u, j)=\mathbb{E}_{i \sim \Delta_{u}} \sigma\left(r_{u, j}-r_{u, i}\right)$
公式计算的是期望， $t$ 是训练epoch， $\Delta_{u}$ 用户交互过的物品集合， $\sigma$ 是sigmoid函数，括号里是负样本的得分减去正样本的得分。

这样选出的负样本是得分靠近正样本的，可以为训练过程提供比较大的梯度，从而提供更多的信息。理想很美好，但是实验发现这种难负样本真正是很少的，反而很可能选到伪负样本。实验还发现，真实负样本的 $\mathcal{H}^{t}(u, j)$ 变化程度要比伪负样本变化程度大，所以进一步提出一个增益感知的衡量方法，监控变化大的样本：
$\mathcal{G}_{u, j}^{t}=\alpha \cdot \mathcal{G}_{u, j}^{t-1}+(1-\alpha) \cdot \sigma\left(\frac{\mathcal{H}_{u, j}^{t-1}-\mathcal{H}_{u, j}^{t}}{\mathcal{H}_{u, j}^{t}+\epsilon}\right)$
这个指标是衡量 $\mathcal{H}^{t}(u, j)$ 的下降程度，作者认为两个epoch中间的期望增益是检测负样本和正样本集之间差异更敏感的信号。其中 $\alpha$ 是平滑系数， $\epsilon$ 是防止分母为0。

这个指标可以理解为，在上个epoch中，哪个样本 $\mathcal{H}^{t}(u, j)$ 下降的最多，就选谁当负样本。

分组优化器

提了个类似于MCL、CPR的loss
$\mathcal{L}\left(u, \Delta_{u}, \Delta_{u}^{\prime}\right)=\sum_{i \in \Delta_{u}} \sum_{j \in \Delta_{u}^{\prime}}\left|r_{u, j}-r_{u, i}+\gamma\right|_{+}$
$\Delta_{u}, \Delta_{u}^{\prime}$ 分别是用户 $u$ 的正样本集合和负样本集合，意味着每个正样本分别要对所有负样本算loss，等于所有的正样本共享了负样本信息，而不是一对一对的分别优化，效率更高，信息更多。和CPR和MCL的意思很像。
在这里插入图片描述