当前位置:网站首页>入侵检测领域数据集总结
入侵检测领域数据集总结
2022-07-06 05:42:00 【迷人的派大星】
参考文献
本文数据引用自以下文献:
Yang, Zhen, et al. “A systematic literature review of methods and datasets for anomaly-based network intrusion detection.” Computers & Security (2022): 102675.
名词含义
- emulated:表示在实验环境下生成的网络流量
- real:在真实场景下捕捉的网络流量
数据集后括号内值依次对应:
- 数据集发表时间
- 数据集为模拟 or 真实
- 数据集数据总量
- 是否为带标记数据
- 数据总类别
KDD99(1999 / emulated / 5,00,000 / yes / 4)
KDD99数据集由 Lee 和 Stolfo (2000) 从 DARPA 网络数据集文件创建。该数据集包含七周的网络流量,大约包含 490 万条记录 。攻击类型分为:(1)用户到root(U2R); (2)远程到本地(R2L); (3) 探查; (4) DoS。每个实例由三个类别的 41 个特征表示:(1)基本; (二)流量; (3) 内容。基本特征是从 TCP/IP 连接中提取的。流量特征分为具有相同主机特征或相同服务特征的流量特征。内容特征与数据部分的可疑行为有关。KDD99是用于评估入侵检测模型的最广泛的数据集。
数据集链接:http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
NSL-KDD(2009 / emulated / 148,517 / yes / 4)
NSL-KDD用于解决 KDD99 数据集的一些固有问题。虽然,这个新版本的 KDD 数据集仍然存在 Tavallaee 等人讨论的一些问题(2009)并且可能不是现有真实网络的完美代表,由于缺乏基于网络的IDS的公共数据集,因此它仍然可以用作有效的基准数据集,以帮助研究人员比较不同的入侵检测方法。此外,NSL-KDD 训练和测试集中的记录数量是合理的。这一优势使得在整个集合上运行实验而不需要随机选择一小部分是负担得起的。因此,不同研究工作的评价结果将具有一致性和可比性。
数据集链接:https://www.unb.ca/cic/datasets/nsl.html
UNSW-NB15(2015 / emulated / 2,540,044 / yes / 9)
UNSW-NB15数据集由澳大利亚网络安全中心的网络靶场实验室创建。由于其各种新颖的攻击方式,它被广泛使用。攻击类型包括 Fuzzer、Analysis、Backdoor、DoS、Exploits、Generic、Reconnaissance、Shellcode 和 Worms。它有一个包含 82,332 条记录的训练集和一个包含 175,341 条记录的测试集。
数据集链接:https://cloudstor.aarnet.edu.au/plus/index.php/s/2DhnLGDdEECo4ys?path=2FUNSW-NB1520-20CSV20Files
CICIDS2017(2017 / emulated / 2,830,743 / yes / 7)
CICIDS2017数据集包含良性和常见的攻击,包括源数据 (PCAP) 和基于时间戳、源和目标 IP、源和目标端口、协议和攻击令牌流的网络流量分析结果 (CSV 文件)。研究人员使用 B-Profile 系统 (Sharafaldin, et al. 2016) 分析人类交互的抽象行为并生成良性背景流量。该数据集包括基于 HTTP、HTTPS、FTP、SSH 和电子邮件协议的 25 个用户的抽象行为。暴力破解攻击包括 FTP、SSH、DoS、Heartbleed、Web 攻击、渗透、僵尸网络和 DDoS。
数据集链接:https://www.unb.ca/cic/datasets/ids-2017.html
CICDDoS2019(2019 / emulated / huge / yes / 11)
CICDoS2019数据集包含最新的 DDoS 攻击,与真实世界的数据相似。它包括使用 CICFLOWMeter-V3 进行网络流量分析的结果,其中包含基于时间戳源的令牌流,以及目标 IPS 源和端口协议和攻击。
数据集链接:https://www.unb.ca/cic/datasets/ddos-2019.html
Kyoto 2006+(2006 / real / unknown / yes / unknown)
Kyoto 2006+数据集是一个公开可用的真实网络流量蜜罐数据集,仅包含少量和小范围的真实、正常的用户行为。研究人员将基于数据包的流量转换为一种称为会话的新格式。每个会话有 24 个属性,其中 14 个是受 KDD CUP 99 数据集启发的统计信息特征,其余 10 个属性是典型的基于流量的属性,例如 IP 地址(匿名)、端口和持续时间。这些数据是在三年内收集的,包括大约 9300 万次会话。
数据集链接:http://www.takakura.com/Kyoto_data/
NDSec-1(2016 / emulated / huge / yes / 8)
NDSec-1数据集包含研究人员从网络设施合成的网络攻击的跟踪和日志文件。它是公开可用的,并于 2016 年以基于数据包的格式捕获。它包含额外的系统日志和 Windows 事件日志信息。攻击组合包括僵尸网络、暴力破解(针对 FTP、HTTP 和 SSH)、DoS(HTTP、SYN 和 UDP 泛洪)、漏洞利用、端口扫描、欺骗和 XSS/SQL 注入。
数据集链接:https://www2.hs-fulda.de/NDSec/NDSec-1/Files/
CTU-13(2014 / real / huge / yes / 7)
CTU-13数据集于 2013 年捕获,提供数据包、单向流和双向流格式。在一个大学网络中捕获,它的 13 个场景包括不同的僵尸网络攻击。网站上提供了有关受感染主机的更多信息。3 流量分三个阶段标记:1) 所有进出受感染主机的流量都被标记为僵尸网络; 2) 匹配特定过滤器的流量被标记为正常; 3)剩余流量被标记为背景。因此,后台流量可能是正常的或恶意的。
数据集链接:http://mcfp.weebly.com/
BoT-IoT(2019 / real / 73,360,900 / yes / 2)
BoT-IoT数据集包含超过 7200 万条记录,包括 DDoS、DoS、OS、服务扫描、键盘记录和数据泄露攻击。 Node-red 工具用于模拟物联网设备的网络行为。 MQTT 是一种轻量级通信协议,用于链接机器对机器 (M2M) 通信。测试平台物联网场景是气象站、智能冰箱、运动激活灯、远程激活车库门和智能恒温器。
数据集链接:https://www.unsw.adfa.edu.au/unsw-canberra-cyber/cybersecurity/ADFA-NB15-Datasets/bot_iot.php
IoT-23(2020 / real / unknown / yes / 20)
IoT-23数据集由 23 个物联网流量的网络捕获(称为场景)组成,包括来自受感染物联网设备的 20 个(PCAP 文件)和三个真实的物联网网络流量。 Raspberry Pi 恶意软件在每个恶意场景中使用多种协议并执行不同的操作来执行。良性场景的网络流量捕获来自三个真实物联网设备的网络流量:飞利浦 HUE 智能 LED 灯、亚马逊 Echo 家庭智能个人助理和尚飞智能门锁。恶意和良性场景都在具有无限制互联网连接的受控网络环境中运行,就像任何真正的物联网设备一样。
数据集链接:https://mcfp.felk.cvut.cz/publicDatasets/IoT-23-Dataset/iot_23_datasets_small.tar.gz
ICML-09(2009 / real / 2,400,000 / yes / 1)
数据集链接:http://www.sysnet.ucsd.edu/projects/url/
CDX(2009 / real / 5771 / yes / 2)
数据集链接:https://www.usma.edu/centers-and-research/cyber-research-center/data-sets
ISOT Botnet(2010 / real / 1,675,424 / yes /unknown)
数据集链接:https://www.uvic.ca/engineering/ece/isot/datasets/botnet-ransomware/index.php
ISCX-IDS(2012 / real / 2,450,324 / yes / unknown)
数据集链接:https://www.unb.ca/cic/datasets/ids.html
Botnet-2014(2014 / real / 283,770 / yes / 16)
数据集链接:https://www.unb.ca/cic/datasets/botnet.html
CIDDS-001(2017 / emulated / 31,959,267 / yes / 6)
数据集链接:http://www.hs-coburg.de/cidds
CIDDS-002(2017 / emulated / 16,161,183 / yes / 5)
数据集链接:http://www.hs-coburg.de/cidds
TRAbID(2017 / emulated / huge / yes / 2)
数据集链接:https://secplab.ppgia.pucpr.br/?q=trabid
ISOT HTTP Botnet(2017 / emulated / huge / yes / 9)
数据集链接:https://www.uvic.ca/engineering/ece/isot/datasets/botnet-ransomware/index.php
ISOT CID(2018 / real / 36,938,985 / yes / 18)
数据集链接:https://www.uvic.ca/engineering/ece/isot/datasets/cloud-security/index.php
InSDN(2020 / real / unknown / yes / 20)
数据集链接:http://aseados.ucd.ie/?p=177
CIRA-CIC-DoHBrw 2020(2020 / emulated / 1,185,286 / yes / 3)
数据集链接:https://www.unb.ca/cic/datasets/dohbrw-2020.html
OPCUA(2020 / emulated / 107,634 / yes / 3)
数据集链接:https://digi2-feup.github.io/OPCUADataset/
待补充…
边栏推荐
- Vulhub vulnerability recurrence 69_ Tiki Wiki
- 04. Project blog log
- B站刘二大人-线性回归及梯度下降
- How can large websites choose better virtual machine service providers?
- [Tang Laoshi] C -- encapsulation: classes and objects
- ArcGIS应用基础4 专题图的制作
- [experience] install Visio on win11
- Vulhub vulnerability recurrence 68_ ThinkPHP
- (column 22) typical column questions of C language: delete the specified letters in the string.
- 03. 开发博客项目之登录
猜你喜欢
The ECU of 21 Audi q5l 45tfsi brushes is upgraded to master special adjustment, and the horsepower is safely and stably increased to 305 horsepower
Safe mode on Windows
嵌入式面试题(四、常见算法)
[JVM] [Chapter 17] [garbage collector]
Graduation design game mall
JS array list actual use summary
SQLite add index
Embedded interview questions (IV. common algorithms)
05. Security of blog project
Pointer classic written test questions
随机推荐
无代码六月大事件|2022无代码探索者大会即将召开;AI增强型无代码工具推出...
How to get list length
Node 之 nvm 下载、安装、使用,以及node 、nrm 的相关使用
Promotion hung up! The leader said it wasn't my poor skills
Vulhub vulnerability recurrence 68_ ThinkPHP
RustDesk 搭建一个自己的远程桌面中继服务器
AUTOSAR from getting started to becoming proficient (10) - embedded S19 file analysis
JS array list actual use summary
HAC集群修改管理员用户密码
Web Security (VI) the use of session and the difference between session and cookie
03. 开发博客项目之登录
Station B Liu Erden linear regression pytoch
[experience] install Visio on win11
Pytorch代码注意的细节,容易敲错的地方
Sword finger offer II 039 Maximum rectangular area of histogram
Notes, continuation, escape and other symbols
嵌入式面试题(四、常见算法)
LeetCode_字符串反转_简单_557. 反转字符串中的单词 III
Redis message queue
04. 项目博客之日志