当前位置:网站首页>【机器学习】实验3布置:贝叶斯垃圾邮件识别
【机器学习】实验3布置:贝叶斯垃圾邮件识别
2022-08-02 06:36:00 【Can__er】
ML_class
学堂在线《机器学习》实验课代码+报告(其中实验1和实验6有配套PPT),授课老师为张敏老师。课程链接:https://www.xuetangx.com/training/ML080910036802/1048372?channel=i.area.page_course_ad。
持续更新中。
所有代码为作者所写,并非最后的“标准答案”,只有课程设计被扣了1分,其余皆是满分。仓库链接:https://github.com/W-caner/ML_class。 此外,欢迎关注我的CSDN:https://blog.csdn.net/Can__er?type=blog。
部分数据集由于过大无法上传,我会在博客中给出下载链接。如果对代码有疑问,有更好的思路等,也非常欢迎在评论区与我交流~
EXP3 贝叶斯垃圾邮件识别
本次作业以垃圾邮件分类任务为基础,要求提取文本特征并使用朴素贝叶斯算法进行垃圾邮件识别(调用已有工具包或自行实现)。
任务介绍
电子邮件是互联网的一项重要服务,在大家的学习、工作和生活中会广泛使用。但是大家的邮箱常常被各种各样的垃圾邮件填充了。有统计显示,每天互联网上产生的垃圾邮件有几百亿近千亿的量级。因此,对电子邮件服务提供商来说,垃圾邮件过滤是一项重要功能。而朴素贝叶斯算法在垃圾邮件识别任务上一直表现非常好,至今仍然有很多系统在使用朴素贝叶斯算法作为基本的垃圾邮件识别算法。
本次实验数据集来自Trec06的中文垃圾邮件数据集,目录解压后包含三个文件夹,其中data目录下是所有的邮件(未分词),已分词好的邮件在data_cut目录下。邮件分为邮件头部分和正文部分,两部分之间一般有空行隔开。标签数据在label文件夹下,文件中每行是标签和对应的邮件路径。‘spam’表示垃圾邮件,‘ham’表示正常邮件。
基本要求:
- 提取正文部分的文本特征;
- 划分训练集和测试集(可以借助工具包。一般笔记本就足够运行所有数据,认为实现困难或算力不够的同学可以采样一部分数据进行实验。);
- 使用朴素贝叶斯算法完成垃圾邮件的分类与预测,要求测试集准确率Accuracy、精准率Precision、召回率Recall均高于0.9(本次实验可以使用已有的一些工具包完成如sklearn);
- 对比特征数目(词表大小)对模型效果的影响;
- 提交代码和实验报告。
扩展要求:
- 邮件头信息有时也可以协助判断垃圾邮件,欢迎学有余力的同学们尝试;
- 尝试自行实现朴素贝叶斯算法细节;
- 尝试对比不同的概率计算方法。
边栏推荐
猜你喜欢
【npm install 报错问题合集】- npm ERR! code ENOTEMPTY npm ERR! syscall rmdir
速看!PMP新考纲、PMBOK第七版解读
数据库概论-MySQL的数据表的基本操作
文件上传漏洞(二)
CAT1 4G+Ethernet development board Tencent cloud mobile phone WeChat applet display temperature and delivery control
第06章 索引的数据结构【2.索引及调优篇】【MySQL高级】
chrome 插件开发指南
Facebook社媒营销的5大技巧,迅速提高独立站转化率!
MySQL high-level --- storage engine, index, lock
File upload vulnerability (2)
随机推荐
实例026:递归求阶乘
宝塔+FastAdmin 404 Not Found
倍福使用AdsRemote组件实现和C#的ADS通讯
punch day05
2022.07.31(LC_6132_使数组中所有元素都等于零)
nacos源码启动找不到istio包
(部分不懂,笔记整理未完成)【图论】差分约束
技术管理三级跳
Submit code process
2020美亚团队赛复盘
PHP Warning: putenv() has been disabled for security reasons in phar
C# Coding Conventions Handbook
武汉高性能计算大会2022举办,高性能计算生态发展再添新动力
享年94岁,图灵奖得主、计算复杂性理论先驱Juris Hartmanis逝世
[Dataset][VOC] Eyewear dataset 6000 in VOC format
request.getSession(),的故事
速看!PMP新考纲、PMBOK第七版解读
【故障诊断分析】基于matlab FFT轴承故障诊断【含Matlab源码 2001期】
两篇不错的php debug教程
jvm 二之 栈帧内部结构