当前位置:网站首页>虚假新闻检测论文阅读(五):A Semi-supervised Learning Method for Fake News Detection in Social Media
虚假新闻检测论文阅读(五):A Semi-supervised Learning Method for Fake News Detection in Social Media
2022-07-29 05:21:00 【Quinn-ntmy】
论文标题:A Semi-supervised Learning Method for Fake News Detection in Social Media
日期:IEEE2020
#基于新闻文本(+图像多模)、#半监督、#伪标签、#LDA
一、基本内容
利用LDA方法为未标注数据打伪标签,从而更好的训练无标注的CNN模型,取得了不错的效果。
二、主要工作
SLD-CNN
基于半监督学习框架,使用CNN针对标记和未标记数据。
(1)首先使用CNN提取文本和图像数据的各种特征;
(2)使用线性判别分析(LDA)预测未分类数据的类别;
(3)提出一种方法计算适应度函数,以提升每个步骤中预测类别的效果。
三、模型框架

- CNN需要标记数据来优化网络,并且未标记数据不能在CNN中使用。故使用基于LDA的方法预测未标记数据。
- LDA线性判别分析:
一个接近方差分析和回归分析的概念。在每种统计方法中,因变量被建模为其他变量的组合。但在方差分析和回归分析中,因变量是距离类型,而在LDA中,因变量是名义或有序的。
论文中假设每个特征都可以建模为一个随机变量。
协方差矩阵是数值变量在不同方向上方差的一般形式,且由于方差表示随机变量在均值附近的值的分布。因此, n n n个变量的协方差矩阵 表示 在均值向量周围的 n n n维空间中的概率分布。
如果有 n n n个随机变量 { h 1 , … , h n } {\{h_1,…,h_n}\} { h1,…,hn}使得每个变量包含 m m m个实例(并存储在维数为 m × n m×n m×n的矩阵 D D D中,其中第 i i i列第 j j j行的元素表示 x i x_i xi和 y i y_i yi之间的协方差)。
∑ [ i , j ] = C o v ( x i , y i ) ∑[i,j] =Cov(x_i,y_i) ∑[i,j]=Cov(xi,yi)
C o v ( x i , y i ) = 1 m ∑ l = 1 m [ ( D ( l , i ) − μ i ) ( D ( i , j ) − μ j ) ] {Cov(x_i,y_i )} = {1\over m} {∑_{l=1}^m[(D(l,i)-μ_i)(D(i,j)-μ_j)]} Cov(xi,yi)=m1∑l=1m[(D(l,i)−μi)(D(i,j)−μj)]
μ i μ_i μi和 μ j μ_j μj是矩阵的第 i i i行、第 j j j列的变量均值,根据Fisher线性判别理论,当均值之差最大,协方差值之差最小时,判别效果最好:
W = ( ∑ 0 + ∑ 1 ) − 1 ( μ ‾ 1 ) − ( μ ‾ 0 ) W=(∑_0+∑_1 )^{-1} (\overline{μ}_1 ) -(\overline{μ}_0 ) W=(∑0+∑1)−1(μ1)−(μ0)
由于问题有2个类别(真实文章和假文章),因此索引为0和1。
因为对于每个类来说,均值是每个特征的每个均值的向量。这意味着两个类分离级别处于最大值,我们可以降低维度(即特征数量)并保留其中重要的特征。这个过程适用于没有标签的数据。 - 半监督LDA(SLDA)
SLDA是一种迭代算法,获取特征和类数量并迭代最大化判别类(两个类:fake—0、real—1),所以SLDA的输出是一个介于0和1之间的数字。
- 结合CNN
估计标签的值可能存在误差,为了控制其对CNN分类过程的影响,引入了影响因子α:
θ ∗ = a r g m i n [ L l a b e l e d ( y ^ , y ) + α L u n l a b e l e d ( y ^ , y ) ] θ^*=argmin[L_{labeled} (\hat{y},y)+αL_{unlabeled} (\hat{y},y)] θ∗=argmin[Llabeled(y^,y)+αLunlabeled(y^,y)]
【第一和第二卷积层的激活函数是ReLU,输出层的激活函数是Softmax,使用Adam优化器】
使用的参数信息:
四、数据集
多模式(文本、图像)数据集来自各知名网站:20015篇新闻文章,其中11941篇是假的,8074篇是正确的。
边栏推荐
- Thinkphp6 pipeline mode pipeline use
- 【Transformer】SOFT: Softmax-free Transformer with Linear Complexity
- Flink, the mainstream real-time stream processing computing framework, is the first experience.
- [ml] PMML of machine learning model -- Overview
- FFmpeg创作GIF表情包教程来了!赶紧说声多谢乌蝇哥?
- 备份谷歌或其他浏览器插件
- 【Clustrmaps】访客统计
- 研究生新生培训第三周:ResNet+ResNeXt
- Intelligent security of the fifth space ⼤ real competition problem ----------- PNG diagram ⽚ converter
- PHP write a diaper to buy the lowest price in the whole network
猜你喜欢

Is flutter being quietly abandoned? On the future of flutter
![[pycharm] pycharm remote connection server](/img/b2/a4e1c095343f9e635ff3dad1e3c507.png)
[pycharm] pycharm remote connection server

【Transformer】TransMix: Attend to Mix for Vision Transformers

ROS教程(Xavier)

【Transformer】AdaViT: Adaptive Vision Transformers for Efficient Image Recognition

【Transformer】AdaViT: Adaptive Vision Transformers for Efficient Image Recognition

Exploration of flutter drawing skills: draw arrows together (skill development)

【目标检测】6、SSD

Huawei 2020 school recruitment written test programming questions read this article is enough (Part 2)

【Transformer】AdaViT: Adaptive Tokens for Efficient Vision Transformer
随机推荐
Is flutter being quietly abandoned? On the future of flutter
第一周任务 深度学习和pytorch基础
【Clustrmaps】访客统计
【DL】关于tensor(张量)的介绍和理解
【Transformer】SegFormer:Simple and Efficient Design for Semantic Segmentation with Transformers
【Transformer】TransMix: Attend to Mix for Vision Transformers
Ribbon learning notes II
GAN:生成对抗网络 Generative Adversarial Networks
初探fastJson的AutoType
【综述】图像分类网络
【Transformer】ATS: Adaptive Token Sampling For Efficient Vision Transformers
【目标检测】Generalized Focal Loss V1
Super simple integration of HMS ml kit to realize parent control
并发编程学习笔记 之 ReentrantLock实现原理的探究
[clustmaps] visitor statistics
Use of file upload (2) -- upload to Alibaba cloud OSS file server
【bug】XLRDError: Excel xlsx file; not supported
【Transformer】ACMix:On the Integration of Self-Attention and Convolution
Study and research the way of programming
[overview] image classification network