当前位置：网站首页>虚假新闻检测论文阅读（五）：A Semi-supervised Learning Method for Fake News Detection in Social Media

虚假新闻检测论文阅读（五）：A Semi-supervised Learning Method for Fake News Detection in Social Media

2022-07-29 05:21:00 【Quinn-ntmy】

论文标题：A Semi-supervised Learning Method for Fake News Detection in Social Media
日期：IEEE2020

#基于新闻文本（+图像多模）、#半监督、#伪标签、#LDA

一、基本内容

利用LDA方法为未标注数据打伪标签，从而更好的训练无标注的CNN模型，取得了不错的效果。

二、主要工作

SLD-CNN
基于半监督学习框架，使用CNN针对标记和未标记数据。
（1）首先使用CNN提取文本和图像数据的各种特征；
（2）使用线性判别分析（LDA）预测未分类数据的类别；
（3）提出一种方法计算适应度函数，以提升每个步骤中预测类别的效果。

三、模型框架

在这里插入图片描述

CNN需要标记数据来优化网络，并且未标记数据不能在CNN中使用。故使用基于LDA的方法预测未标记数据。
LDA线性判别分析：
一个接近方差分析和回归分析的概念。在每种统计方法中，因变量被建模为其他变量的组合。但在方差分析和回归分析中，因变量是距离类型，而在LDA中，因变量是名义或有序的。
论文中假设每个特征都可以建模为一个随机变量。
协方差矩阵是数值变量在不同方向上方差的一般形式，且由于方差表示随机变量在均值附近的值的分布。因此， $n$ 个变量的协方差矩阵表示在均值向量周围的 $n$ 维空间中的概率分布。
如果有 $n$ 个随机变量 ${\{h_1,…,h_n}\}$ 使得每个变量包含 $m$ 个实例（并存储在维数为 $m \times n$ 的矩阵 $D$ 中，其中第 $i$ 列第 $j$ 行的元素表示 $x_i$ 和 $y_i$ 之间的协方差）。
$i,j] =Cov(x_i,y_i)$
${Cov(x_i,y_i )} = {1\over m} {∑_{l=1}^m[(D(l,i)-μ_i)(D(i,j)-μ_j)]}$
$μ_i$ 和 $μ_j$ 是矩阵的第 $i$ 行、第 $j$ 列的变量均值，根据Fisher线性判别理论，当均值之差最大，协方差值之差最小时，判别效果最好：
$W=(∑_0+∑_1 )^{-1} (\overline{μ}_1 ) -(\overline{μ}_0 )$
由于问题有2个类别（真实文章和假文章），因此索引为0和1。
因为对于每个类来说，均值是每个特征的每个均值的向量。这意味着两个类分离级别处于最大值，我们可以降低维度（即特征数量）并保留其中重要的特征。这个过程适用于没有标签的数据。
半监督LDA（SLDA）
SLDA是一种迭代算法，获取特征和类数量并迭代最大化判别类（两个类：fake—0、real—1），所以SLDA的输出是一个介于0和1之间的数字。
结合CNN
估计标签的值可能存在误差，为了控制其对CNN分类过程的影响，引入了影响因子α：
$θ^*=argmin[L_{labeled} (\hat{y},y)+αL_{unlabeled} (\hat{y},y)]$