当前位置:网站首页>虚假新闻检测论文阅读(三):Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings
虚假新闻检测论文阅读(三):Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings
2022-07-29 05:21:00 【Quinn-ntmy】
论文标题:Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings
论文来源:IEEE 2018
#基于新闻文本、#半监督、#图结构
一、文章动机
大多数现有工作都集中在利用大量标记文章的手动特征提取和监督分类模型上。但真实情况下往往没有很多标注好的数据,仅存在少量的标签。
二、主要工作
作者模拟上述的情况,将新闻文章的集合表示为多维张量,利用张量分解导出简洁的文章嵌入,用来捕获每篇文章的空间/上下文信息,并使用这些嵌入创建逐篇文章的图,在图上传播有限的标签。
利用张量表示和新闻文章的分解,仔细构建KNN图以及传播有限的标记文章信息来对更大的集合进行推理:
(1)利用基于张量的文章嵌入推导出新闻文章的图表示;
(2)制定半监督方法,在图上传播已知标签以确定未知标签;
(3)收集在社交媒体上公开分享的大量错误信息和真实新闻文章数据集;
(4)在真实数据集上评估所提出的方法。
1. 将文章内容表示为张量(Tensor decompositon)
提出了两种不同的张量构造方法:
(1)基于频率的张量:构建了一个三模张量(word, word, news),其中对于每篇新闻文章创建一个非零的共现矩阵
(2)基于二进制的张量:构建了一个张量(word, word, news),其中所用出现的条目都是布尔值,指示第i个和第j个单词是否至少在预定义窗口中出现一次。
2. 新闻文章的KNN图
使用步骤1中计算出的张量嵌入构建了新闻文章的图形表示,使用因子矩阵C构建新闻文章的KNN图G,C中的每一列都是潜在主题空间中相应新闻文章的表示,因此,通过在C上构建一个KNN图,我们可以在该空间中找到类似的文章。
具体操作:
(1)将C中的每一行视为R维空间中的一个点;
(2)计算新闻之间的 l 2 l_2 l2距离并找到C中每个点的k-最近点【新闻文章数量在实践中非常大,可以利用基于 kd-tree(k维树) 的优化以便更高效地为每篇文章找到k最近邻】;
(3)G中的每个节点代表一篇新闻文章,每条边编码两篇文章在嵌入空间中相似;
最终图G是一个无向的对称图,其中每个节点都连接到至少k个节点。图紧凑表示为M×M邻接矩阵。
3. Belief Propagation
使用一种假设同质的信念传播算法。
使用快速和线性化的FaBP变体:
(1)该算法被证明对已知标签的大小不敏感,因此认为FaBP仅使用少量已知标签即可实现良好的学习性能。
(2)FaBP在G中的边缘数上是线性的,因此可用于大规模图形。
三、数据集
1、Political(150篇政治新闻文章);
2、Bulgarian(68篇真实新闻和69篇假新闻)。
边栏推荐
- 关于Flow的原理解析
- How to obtain openid of wechat applet in uni app project
- IDEA中设置自动build-改动代码,不用重启工程,刷新页面即可
- 【语义分割】SETR_Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformer
- Semaphore (semaphore) for learning notes of concurrent programming
- [semantic segmentation] Introduction to mapillary dataset
- The third week of postgraduate freshman training: resnet+resnext
- PHP write a diaper to buy the lowest price in the whole network
- Spring, summer, autumn and winter with Miss Zhang (3)
- anaconda中移除旧环境、增加新环境、查看环境、安装库、清理缓存等操作命令
猜你喜欢
Thinkphp6 pipeline mode pipeline use
Flutter 绘制技巧探索:一起画箭头(技巧拓展)
ASM piling: after learning ASM tree API, you don't have to be afraid of hook anymore
Briefly talk about the difference between pendingintent and intent
My ideal job, the absolute freedom of coder farmers is the most important - the pursuit of entrepreneurship in the future
在uni-app项目中,如何实现微信小程序openid的获取
[clustmaps] visitor statistics
【Transformer】SOFT: Softmax-free Transformer with Linear Complexity
Anr Optimization: cause oom crash and corresponding solutions
【卷积核设计】Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
随机推荐
【CV】请问卷积核(滤波器)3*3、5*5、7*7、11*11 都是具体什么数?
These process knowledge you must know
SSM integration
How does PHP generate QR code?
Detailed explanation of atomic operation class atomicinteger in learning notes of concurrent programming
Win10+opencv3.2+vs2015 configuration
Valuable blog and personal experience collection (continuous update)
Spring, summer, autumn and winter with Miss Zhang (5)
How to obtain openid of wechat applet in uni app project
【Transformer】AdaViT: Adaptive Tokens for Efficient Vision Transformer
Training log 4 of the project "construction of Shandong University mobile Internet development technology teaching website"
Windos下安装pyspider报错:Please specify --curl-dir=/path/to/built/libcurl解决办法
深入理解MMAP原理,让大厂都爱不释手的技术
有价值的博客、面经收集(持续更新)
A preliminary study on fastjason's autotype
Flutter正在被悄悄放弃?浅析Flutter的未来
[semantic segmentation] full attention network for semantic segmentation
【go】defer的使用
day02作业之进程管理
Semaphore (semaphore) for learning notes of concurrent programming