当前位置:网站首页>【毕业设计】基于半监督学习和集成学习的情感分析研究
【毕业设计】基于半监督学习和集成学习的情感分析研究
2022-06-22 13:19:00 【神仙别闹】



概述:基于半监督学习和集成学习的情感分析研究
数据:text/JDMilk.arff[tf-idf]
对于baseline
7%作为训练集 30%作为测试集
对于SSL alg
7%作为训练集
63%无标注数据集 30%作为测试集
参考:[高伟女硕士]基于随机子空间自训练的半监督情感分类方法
切分训集和测试集:四折交叉验证
具体做法是:将数据集分成四份,轮流将其中3份作为训练数据,1份作为测试数据,进行试验,最终采用10次结果的正确率的平均值作为对算法精度的估计 显然,这种估计精度的做法具有高时间复杂度
测试标准:准确率(Accuracy)
环境配置:
python2.7
scikit,numpy,scipy
docker
算法:
监督学习(SL)的分类器选择
选择标准:能够输出后验概率的
1.支持向量机(SVC)
2.朴素贝叶斯-多项式分布假设(MultinomialNB)
半监督学习(SSL)
1.Self-Training
最原始的半监督学习算法,但是容易学坏,压根没有改善,甚至更差
Assumption:One’s own high confidence predictions are correct.
其主要思路是首先利用小规模的标注样本训练出一个分类器,然后对未标注样本进行分类,挑选置信度(后验概率)最高的样本进行自动标注并且更新标注集,迭代式地反复训练分类器

2.Co-Training
特点:Original(Blum & Mitshell)是针对多视图数据(网页文本和超链接),从不同视图(角度)思考问题,基于分歧
Original视图为2,分别是网站文本和超链接
p=1,n=3,k=30,u=75
Rule#1:样本可以由两个或多个冗余的条件独立视图表示
Rule#2:每个视图都能从训练样本中得到一个强分类器
视图数量4比较好[来自苏艳文献],每个视图内包含的特征数量m为:总特征数量n/2[来自王娇文献]。但是,普通情感评论文本(nlp)并没有天然存在的多个视图,考虑到情感文本中特征数量非常庞大,利用随机特征子空间生成的方式
[RandomSubspaceMethod,RSM]将文本特征空间分为多个部分作为多个视图
但是视图之间至少得满足’redundant but notcompletely correlated’的条件
因为多个视图之间应该相互独立的,如果都是全相关,那么基于多视图训练出来的分类器对相同待标记示例的标记是完全一样的,这样一来Co-Training 算法就退化成了 self-training 算法[来自高原硕士文献]
来源
最早来源于Tin Kam Ho的The Random Subspace Method forConstructing Decision Forests论文,for improving weak classifiers.
①来自王娇博士文献叙述
假设原数据特征空间为n维 ,随机子空间为 m 维 ,满足 m < n.设标记数据集有l个数据,即| L| = l. 对任意 p ∈ L ,可写成 p = (p1 , p2 , …, pn),将p投影到这m维张成的空间中 ,得到的向量可写成 psub = ( ps1 , ps2 , …, psm)由所有 l 个 psub组成的向量集合Lsub ,就是标记数据集L在其 m维随机子空间中的投影. 重复此过程 K次 ,得到数据特征空间的 K个不同视图,Lsubk(1 ≤k ≤K)
Q:还是没有说清楚投影(切分)和随机这两者怎么实现?
②from wikipedia:
1.Let the number of training points be N and the number of features in the training data be D.
2.Choose L to be the number of individual models in the ensemble.
3.For each individual model l, choose dl (dl < D) to be the number of input variables for l. It is common to have only one value of dl for all the individual models.
4.For each individual model l, create a training set by choosing dl features from D with replacement and train the model.
③出处Tin Kam Ho的The Random Subspace Method forConstructing Decision Forests
资源下载
https://download.csdn.net/download/s1t16/85724818
https://download.csdn.net/download/s1t16/85724818
边栏推荐
- 基于SSH框架甜品商城管理系统【源码+数据库】
- 【考研攻略】北京交通大学网络空间安全专业2018-2022年考研数据分析
- Vcip2021: super resolution using decoded information
- Error: Unable to find a match: lrzsz的解决方法
- C generic_ Generic class
- Groovy语法介绍
- Messiari annual report-2021
- Common real machine debugging plug-ins for unity commercial games
- polardbx是pg还是mysql?
- Understand the quality assurance of open source software (OSS)
猜你喜欢

Kubernetes monitoring: grafana adds datasource and dashboard through automation

Chengdu test equipment development_ Array introduction of C language for single chip microcomputer

Maui uses Masa blazor component library

JS高级程序设计第 4 版:迭代器的学习

拜登签署两项旨在加强政府网络安全的新法案

一文搞懂开放源码软件(OSS)质量保证

C语言学生管理系统(开源)

The diffusion model is crazy again! This time the occupied area is

如何实现接口异常场景测试?测试方法探索与测试工具实现

Thoroughly understand the factory mode
随机推荐
安装和使用protobuf-c
How to add a mask to a VR panoramic work? What is the function?
Le modèle de diffusion est encore fou! Cette fois - ci, la zone occupée était...
Network address translation nat
Groovy之列表操作
unity防止按钮btn被连续点击
Rongyun: let the bank go to the "cloud" easily
Groovy list operation
Closure of groovy
C# 分页计算 总页数、当前页数据集合
C语言学生管理系统(开源)
How to implement interface exception scenario testing? Exploration of test methods and implementation of test tools
Verification code is the natural enemy of automation? See how the great God solved it
想知道股票开户优惠链接,如何得知?网上开户安全么?
C#泛型_泛型类
Flink status management
[PR] basic process
Thoroughly understand the factory mode
How to understand fold change? Multiple analysis?
What is bout?