当前位置：网站首页>虚假新闻检测论文阅读（三）：Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings

虚假新闻检测论文阅读（三）：Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings

2022-07-29 05:21:00 【Quinn-ntmy】

论文标题：Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings
论文来源：IEEE 2018

#基于新闻文本、#半监督、#图结构

一、文章动机

大多数现有工作都集中在利用大量标记文章的手动特征提取和监督分类模型上。但真实情况下往往没有很多标注好的数据，仅存在少量的标签。

二、主要工作

作者模拟上述的情况，将新闻文章的集合表示为多维张量，利用张量分解导出简洁的文章嵌入，用来捕获每篇文章的空间/上下文信息，并使用这些嵌入创建逐篇文章的图，在图上传播有限的标签。
利用张量表示和新闻文章的分解，仔细构建KNN图以及传播有限的标记文章信息来对更大的集合进行推理：
（1）利用基于张量的文章嵌入推导出新闻文章的图表示；
（2）制定半监督方法，在图上传播已知标签以确定未知标签；
（3）收集在社交媒体上公开分享的大量错误信息和真实新闻文章数据集；
（4）在真实数据集上评估所提出的方法。
在这里插入图片描述

1. 将文章内容表示为张量（Tensor decompositon）
提出了两种不同的张量构造方法：
（1）基于频率的张量：构建了一个三模张量(word, word, news)，其中对于每篇新闻文章创建一个非零的共现矩阵
（2）基于二进制的张量：构建了一个张量(word, word, news），其中所用出现的条目都是布尔值，指示第i个和第j个单词是否至少在预定义窗口中出现一次。

2. 新闻文章的KNN图
使用步骤1中计算出的张量嵌入构建了新闻文章的图形表示，使用因子矩阵C构建新闻文章的KNN图G，C中的每一列都是潜在主题空间中相应新闻文章的表示，因此，通过在C上构建一个KNN图，我们可以在该空间中找到类似的文章。
具体操作：
（1）将C中的每一行视为R维空间中的一个点；
（2）计算新闻之间的 $l_2$ 距离并找到C中每个点的k-最近点【新闻文章数量在实践中非常大，可以利用基于 kd-tree（k维树） 的优化以便更高效地为每篇文章找到k最近邻】；
（3）G中的每个节点代表一篇新闻文章，每条边编码两篇文章在嵌入空间中相似；
最终图G是一个无向的对称图，其中每个节点都连接到至少k个节点。图紧凑表示为M×M邻接矩阵。

3. Belief Propagation
使用一种假设同质的信念传播算法。
使用快速和线性化的FaBP变体：
（1）该算法被证明对已知标签的大小不敏感，因此认为FaBP仅使用少量已知标签即可实现良好的学习性能。
（2）FaBP在G中的边缘数上是线性的，因此可用于大规模图形。

三、数据集

1、Political（150篇政治新闻文章）；
2、Bulgarian（68篇真实新闻和69篇假新闻）。

原网站

版权声明
本文为[Quinn-ntmy]所创，转载请带上原文链接，感谢
https://blog.csdn.net/weixin_43421371/article/details/125938469

当前位置：网站首页>虚假新闻检测论文阅读（三）：Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings

虚假新闻检测论文阅读（三）：Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings

#基于新闻文本、#半监督、#图结构

一、文章动机

二、主要工作

三、数据集

边栏推荐

猜你喜欢

随机推荐