当前位置：网站首页>【兴趣阅读】Adversarial Filtering Modeling on Long-term User Behavior Sequences for Click-Through Rate Pre

【兴趣阅读】Adversarial Filtering Modeling on Long-term User Behavior Sequences for Click-Through Rate Pre

2022-07-04 04:33:00 【梦否】

Adversarial Filtering Modeling on Long-term User Behavior Sequences for Click-Through Rate Prediction

Alibaba Group
6页（加参考文献）

1. 摘要

丰富的用户行为信息对捕获和理解点击率预测用户兴趣是及其重要的。最近的研究者提出了几种方法来处理短期-长期行为序列和建模用户兴趣。这些方法没有很好的处理在长期用户行为中的噪声信息，而这可能会明显影响到点击率预测的性能。故而这篇论文提出了一个新奇的对抗过滤模型（ADFM），在该模型中使用一个对抗的过滤机制，可以移除无用的行为信息。

2. 引言

由于用户历史数据的迅速增长，在点击预测（CTR）任务中用户行为建模被广泛采纳，主要目的是从用户历史行为数据中捕捉到用户兴趣，而且对于推荐系统和在线营销有着至关重要的作用。现有模型主要针对短期用于行为序列，即有限长度。如果将其扩展到长期用户行为序列，即更大的窗口长度值，但往往需要花费更多的存储空间，同时也可以获取到一些潜在的信息。那么如果设计一个有效的长期用户行为模型？

直观上来说，可以转换；将长序列转换为短序列，比如在论文[8, 9, 11]中就是这么处理的。

那么，对于在摘要中提到的其他模型无法处理的噪声问题，在论文中噪声指：

重复的行为和无用的行为；比如：重复的行为可以是用户访问多次的商品、商标等，这些重复的数据没有带来新的信息。无用的数据，比如用户意外的点击或者“长尾项”数据。

3. 基本点击预测（CTR）模型

3.1 输入特征（Input Fetures）：

Item Profile
* User Profile
Short-term user behavior，分为行为类型：{ impression, click , add to cart , pay}，行为目标：{ item , brand, shop , category}；将行为类型和行为目标组合为用户的短期行为序列。时间窗口为3天，并且行为序列最长不超过100。
Long-term user behavior，和短期用户行为类似，时间窗口为几个月，序列长度可达成千上万（tens of thousands）；

3.2 嵌入层（Embedding Layer）：

target: high-dimensional sparse fetures => low-dimensional dense embedding representaion.

然后加入了池化层，多层感知机层，也就是最后的进行输入预测目标项是否会被点击。对应的（点击）激活函数为：

在这里插入图片描述

(x, y)表示训练集样本，y取值为0或者1，对应的p(x)表示预测点击的概率。也即是：预测成功的概率=（预测实际点击成功+预测实际不点击成功）

4. ADFM模型

见下图：
在这里插入图片描述

观察上图，和自己所见过的模型框架的区别直观上来说确实在于加入了中间的部分，即：Behavior Selection Unit。经过了一次MLP进行判优之后，再选择出分类效果较好的嵌入特征，将这个嵌入特征（Useful behaviors/Useless behaviors）再用作新一轮模型的输入，同样经过注意力机制，然后进行分类。同时还引入了外部的特征，有Target feature， Other features。那么其实我是很好奇的：为什么要吧这特征额外作为外部的特征，而不是统一的进行筛选：

猜想一：这部分特征很有用，能对模型的效果起决定性作用？
猜想二：这部分特征数据比较少，不能简单拼接到Long-term user behavior sequences？

感觉应该是第二个。带着这个疑问，以及对这个模型的非细节理解继续进行阅读。

从底向上：

Hierarchical Aggregation Unit：用来去重；
Behavior Selection Unit：用来选择有用/无用的行为嵌入；
Interest Extraction Unit & Adversarial Interest Extraction Unit：捕获用户兴趣。

值得注意的是：

The aim of ADFM is to identify duplicate and useless behaviors from the long-term user behavior sequence and retain the most useful k behaviors, where k is a hyper-parameter.

然后可以得到过滤的去序列，然后输入到一个CTR点击预测模型中进行最终的分类。