当前位置:网站首页>虚假新闻检测论文阅读(三):Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings
虚假新闻检测论文阅读(三):Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings
2022-07-29 05:21:00 【Quinn-ntmy】
论文标题:Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings
论文来源:IEEE 2018
#基于新闻文本、#半监督、#图结构
一、文章动机
大多数现有工作都集中在利用大量标记文章的手动特征提取和监督分类模型上。但真实情况下往往没有很多标注好的数据,仅存在少量的标签。
二、主要工作
作者模拟上述的情况,将新闻文章的集合表示为多维张量,利用张量分解导出简洁的文章嵌入,用来捕获每篇文章的空间/上下文信息,并使用这些嵌入创建逐篇文章的图,在图上传播有限的标签。
利用张量表示和新闻文章的分解,仔细构建KNN图以及传播有限的标记文章信息来对更大的集合进行推理:
(1)利用基于张量的文章嵌入推导出新闻文章的图表示;
(2)制定半监督方法,在图上传播已知标签以确定未知标签;
(3)收集在社交媒体上公开分享的大量错误信息和真实新闻文章数据集;
(4)在真实数据集上评估所提出的方法。
1. 将文章内容表示为张量(Tensor decompositon)
提出了两种不同的张量构造方法:
(1)基于频率的张量:构建了一个三模张量(word, word, news),其中对于每篇新闻文章创建一个非零的共现矩阵
(2)基于二进制的张量:构建了一个张量(word, word, news),其中所用出现的条目都是布尔值,指示第i个和第j个单词是否至少在预定义窗口中出现一次。
2. 新闻文章的KNN图
使用步骤1中计算出的张量嵌入构建了新闻文章的图形表示,使用因子矩阵C构建新闻文章的KNN图G,C中的每一列都是潜在主题空间中相应新闻文章的表示,因此,通过在C上构建一个KNN图,我们可以在该空间中找到类似的文章。
具体操作:
(1)将C中的每一行视为R维空间中的一个点;
(2)计算新闻之间的 l 2 l_2 l2距离并找到C中每个点的k-最近点【新闻文章数量在实践中非常大,可以利用基于 kd-tree(k维树) 的优化以便更高效地为每篇文章找到k最近邻】;
(3)G中的每个节点代表一篇新闻文章,每条边编码两篇文章在嵌入空间中相似;
最终图G是一个无向的对称图,其中每个节点都连接到至少k个节点。图紧凑表示为M×M邻接矩阵。
3. Belief Propagation
使用一种假设同质的信念传播算法。
使用快速和线性化的FaBP变体:
(1)该算法被证明对已知标签的大小不敏感,因此认为FaBP仅使用少量已知标签即可实现良好的学习性能。
(2)FaBP在G中的边缘数上是线性的,因此可用于大规模图形。
三、数据集
1、Political(150篇政治新闻文章);
2、Bulgarian(68篇真实新闻和69篇假新闻)。
边栏推荐
- Yum local source production
- 【卷积核设计】Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
- Isaccessible() method: use reflection techniques to improve your performance several times
- yum本地源制作
- 并发编程学习笔记 之 原子操作类AtomicInteger详解
- Spring, summer, autumn and winter with Miss Zhang (3)
- 并发编程学习笔记 之 ReentrantLock实现原理的探究
- [competition website] collect machine learning / deep learning competition website (continuously updated)
- ASM插桩:学完ASM Tree api,再也不用怕hook了
- The difference between asyncawait and promise
猜你喜欢

Use of file upload (2) -- upload to Alibaba cloud OSS file server

Training log III of "Shandong University mobile Internet development technology teaching website construction" project

主流实时流处理计算框架Flink初体验。

ssm整合

Training log 6 of the project "construction of Shandong University mobile Internet development technology teaching website"

ASM插桩:学完ASM Tree api,再也不用怕hook了

Training log II of the project "construction of Shandong University mobile Internet development technology teaching website"

Reporting service 2016 custom authentication

Thinkphp6 output QR code image format to solve the conflict with debug

Spring, summer, autumn and winter with Miss Zhang (2)
随机推荐
【网络设计】ConvNeXt:A ConvNet for the 2020s
【Transformer】AdaViT: Adaptive Vision Transformers for Efficient Image Recognition
My ideal job, the absolute freedom of coder farmers is the most important - the pursuit of entrepreneurship in the future
【bug】XLRDError: Excel xlsx file; not supported
研究生新生培训第一周:深度学习和pytorch基础
mysql在查询字符串类型的时候带单引号和不带的区别和原因
Training log 4 of the project "construction of Shandong University mobile Internet development technology teaching website"
Markdown语法
【Transformer】SOFT: Softmax-free Transformer with Linear Complexity
xtrabackup 的使用
day02 作业之文件权限
【卷积核设计】Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
【Transformer】ATS: Adaptive Token Sampling For Efficient Vision Transformers
Analysis on the principle of flow
【目标检测】Generalized Focal Loss V1
【综述】图像分类网络
【图像分类】如何使用 mmclassification 训练自己的分类模型
Briefly talk about the difference between pendingintent and intent
Basic use of array -- traverse the circular array to find the maximum value, minimum value, maximum subscript and minimum subscript of the array
【Transformer】SegFormer:Simple and Efficient Design for Semantic Segmentation with Transformers