当前位置:网站首页>【机器学习】实验4布置:AAAI会议论文聚类分析
【机器学习】实验4布置:AAAI会议论文聚类分析
2022-08-02 06:36:00 【Can__er】
ML_class
学堂在线《机器学习》实验课代码+报告(其中实验1和实验6有配套PPT),授课老师为张敏老师。课程链接:https://www.xuetangx.com/training/ML080910036802/1048372?channel=i.area.page_course_ad。
持续更新中。
所有代码为作者所写,并非最后的“标准答案”,只有课程设计被扣了1分,其余皆是满分。仓库链接:https://github.com/W-caner/ML_class。 此外,欢迎关注我的CSDN:https://blog.csdn.net/Can__er?type=blog。
部分数据集由于过大无法上传,我会在博客中给出下载链接。如果对代码有疑问,有更好的思路等,也非常欢迎在评论区与我交流~
EXP4 AAAI会议论文聚类分析
本次实验以AAAI 2014会议论文数据为基础,要求实现或调用无监督聚类算法,了解聚类方法。
任务介绍
每年国际上召开的大大小小学术会议不计其数,发表了非常多的论文。在计算机领域的一些大型学术会议上,一次就可以发表涉及各个方向的几百篇论文。按论文的主题、内容进行聚类,有助于人们高效地查找和获得所需要的论文。本案例数据来源于AAAI 2014上发表的约400篇文章,由UCI公开提供,提供包括标题、作者、关键词、摘要在内的信息,希望大家能根据这些信息,合理地构造特征向量来表示这些论文,并设计实现或调用聚类算法对论文进行聚类。最后也可以对聚类结果进行观察,看每一类都是什么样的论文,是否有一些主题。
基本要求:
- 将文本转化为向量,实现或调用无监督聚类算法,对论文聚类,例如10类(可使用已有工具包例如sklearn);
- 观察每一类中的论文,调整算法使结果较为合理;
- 无监督聚类没有标签,效果较难评价,因此没有硬性指标,跑通即可,主要让大家了解和感受聚类算法,比较简单。
扩展要求:
- 对文本向量进行降维,并将聚类结果可视化成散点图。
注:group和topic也不能完全算是标签,因为
- 有些文章作者投稿时可能会选择某个group/topic但实际和另外group/topic也相关甚至更相关;
- 一篇文章可能有多个group和topic,作为标签会出现有的文章同属多个类别,这里暂不考虑这样的聚类;
- group和topic的取值很多,但聚类常常希望指定聚合成出例如5/10/20类;
- 感兴趣但同学可以思考利用group和topic信息来量化评价无监督聚类结果,不作要求。
提示:
- 高维向量的降维旨在去除一些高相关性的特征维度,保留最有用的信息,用更低维的向量表示高维数据,常用的方法有PCA和t-SNE等;
- 降维与聚类是两件不同的事情,聚类实际上在降维前的高维向量和降维后的低维向量上都可以进行,结果也可能截然不同;
- 高维向量做聚类,降维可视化后若有同一类的点不在一起,是正常的。在高维空间中它们可能是在一起的,降维后损失了一些信息。
边栏推荐
猜你喜欢
HCIP 第四天
typescript 'props' is declared but its value is never read solution
[21天学习挑战赛——内核笔记](一)——设备树的概述(硬件、目标、效果、文件类型)
(Part of it is not understood, and the notes are not completed) [Graph Theory] Difference Constraints
How the Internet of Things is changing the efficiency of city operations
海缆探测仪TSS350(二)
【21天学习挑战赛】顺序查找
HCIP 第三天实验
The second day HCIP
MySQL Advanced Statements (1)
随机推荐
线程的创建方式
PMP新考纲考试内容介绍
提交代码流程
optional
MySQL Advanced Statements (1)
CAT1 4G+Ethernet development board Tencent cloud mobile phone WeChat applet display temperature and delivery control
Day 4 of HCIP
实例032:反向输出II
实例029:反向输出
Pagoda+FastAdmin 404 Not Found
mysql 注入
(部分不懂,笔记整理未完成)【图论】差分约束
.NET Static Code Weaving - Rougamo Release 1.1.0
FaceBook社媒营销高效转化技巧分享
yml字符串读取时转成数字了怎么解决
love
新产品立大功 伟世通第二季度营收双增
Redis 常用命令和基本数据结构(数据类型)
PWA 踩坑 - 第一次加载页面后无法获取CacheStorage某些资源
request.getSession(),的故事