当前位置:网站首页>虚假新闻检测论文阅读(三):Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings
虚假新闻检测论文阅读(三):Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings
2022-07-29 05:21:00 【Quinn-ntmy】
论文标题:Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings
论文来源:IEEE 2018
#基于新闻文本、#半监督、#图结构
一、文章动机
大多数现有工作都集中在利用大量标记文章的手动特征提取和监督分类模型上。但真实情况下往往没有很多标注好的数据,仅存在少量的标签。
二、主要工作
作者模拟上述的情况,将新闻文章的集合表示为多维张量,利用张量分解导出简洁的文章嵌入,用来捕获每篇文章的空间/上下文信息,并使用这些嵌入创建逐篇文章的图,在图上传播有限的标签。
利用张量表示和新闻文章的分解,仔细构建KNN图以及传播有限的标记文章信息来对更大的集合进行推理:
(1)利用基于张量的文章嵌入推导出新闻文章的图表示;
(2)制定半监督方法,在图上传播已知标签以确定未知标签;
(3)收集在社交媒体上公开分享的大量错误信息和真实新闻文章数据集;
(4)在真实数据集上评估所提出的方法。
1. 将文章内容表示为张量(Tensor decompositon)
提出了两种不同的张量构造方法:
(1)基于频率的张量:构建了一个三模张量(word, word, news),其中对于每篇新闻文章创建一个非零的共现矩阵
(2)基于二进制的张量:构建了一个张量(word, word, news),其中所用出现的条目都是布尔值,指示第i个和第j个单词是否至少在预定义窗口中出现一次。
2. 新闻文章的KNN图
使用步骤1中计算出的张量嵌入构建了新闻文章的图形表示,使用因子矩阵C构建新闻文章的KNN图G,C中的每一列都是潜在主题空间中相应新闻文章的表示,因此,通过在C上构建一个KNN图,我们可以在该空间中找到类似的文章。
具体操作:
(1)将C中的每一行视为R维空间中的一个点;
(2)计算新闻之间的 l 2 l_2 l2距离并找到C中每个点的k-最近点【新闻文章数量在实践中非常大,可以利用基于 kd-tree(k维树) 的优化以便更高效地为每篇文章找到k最近邻】;
(3)G中的每个节点代表一篇新闻文章,每条边编码两篇文章在嵌入空间中相似;
最终图G是一个无向的对称图,其中每个节点都连接到至少k个节点。图紧凑表示为M×M邻接矩阵。
3. Belief Propagation
使用一种假设同质的信念传播算法。
使用快速和线性化的FaBP变体:
(1)该算法被证明对已知标签的大小不敏感,因此认为FaBP仅使用少量已知标签即可实现良好的学习性能。
(2)FaBP在G中的边缘数上是线性的,因此可用于大规模图形。
三、数据集
1、Political(150篇政治新闻文章);
2、Bulgarian(68篇真实新闻和69篇假新闻)。
边栏推荐
- [pycharm] pycharm remote connection server
- day02作业之进程管理
- Rsync+inotyfy realize real-time synchronization of single data monitoring
- Training log 6 of the project "construction of Shandong University mobile Internet development technology teaching website"
- 【目标检测】Generalized Focal Loss V1
- Huawei 2020 school recruitment written test programming questions read this article is enough (Part 1)
- 并发编程学习笔记 之 ReentrantLock实现原理的探究
- Windos下安装pyspider报错:Please specify --curl-dir=/path/to/built/libcurl解决办法
- 【Attention】Visual Attention Network
- Ffmpeg creation GIF expression pack tutorial is coming! Say thank you, brother black fly?
猜你喜欢

Activity交互问题,你确定都知道?

Markdown syntax

ssm整合

【Transformer】ACMix:On the Integration of Self-Attention and Convolution

Show profiles of MySQL is used.
![[clustmaps] visitor statistics](/img/1a/173664a633fd14ea56696dd824acb6.png)
[clustmaps] visitor statistics
![[semantic segmentation] Introduction to mapillary dataset](/img/3d/49b1b6007c1f97b1ba8ac438097590.png)
[semantic segmentation] Introduction to mapillary dataset

Technology that deeply understands the principle of MMAP and makes big manufacturers love it
![[go] use of defer](/img/10/9e4e1c593870450c381a154f31ebef.png)
[go] use of defer

Semaphore (semaphore) for learning notes of concurrent programming
随机推荐
Reporting service 2016 custom authentication
Performance comparison | FASS iSCSI vs nvme/tcp
【Transformer】SegFormer:Simple and Efficient Design for Semantic Segmentation with Transformers
Most PHP programmers don't understand how to deploy safe code
Android studio login registration - source code (connect to MySQL database)
【pycharm】pycharm远程连接服务器
ssm整合
IDEA中设置自动build-改动代码,不用重启工程,刷新页面即可
Thinkphp6 output QR code image format to solve the conflict with debug
Lock lock of concurrent programming learning notes and its implementation basic usage of reentrantlock, reentrantreadwritelock and stampedlock
Activity交互问题,你确定都知道?
Training log III of "Shandong University mobile Internet development technology teaching website construction" project
Machine learning makes character recognition easier: kotlin+mvvm+ Huawei ml Kit
【目标检测】Generalized Focal Loss V1
Personal learning website
【数据库】数据库课程设计一一疫苗接种数据库
Huawei 2020 school recruitment written test programming questions read this article is enough (Part 2)
ASM插桩:学完ASM Tree api,再也不用怕hook了
30 knowledge points that must be mastered in quantitative development [what is individual data]?
并发编程学习笔记 之 工具类Semaphore(信号量)