聊天中文语料库对比
主要中文聊天语料库如下:
- chatterbot
- 豆瓣多轮
- PTT八卦语料
- 青云语料
- 电视剧对白语料
- 贴吧论坛回帖语料
- 微博语料
- 小黄鸡语料
共8个公开闲聊常用语料和短信,白鹭时代问答等语料。
并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。
使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。
2022-07-02 06:25:00 【xiaobai_Ry】
主要中文聊天语料库如下:
共8个公开闲聊常用语料和短信,白鹭时代问答等语料。
并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。
使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。
以下所有语料都已经统一下载好,存在 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex 中。给出的语料原链接是为了说明该语料的原始出处是在哪里
python3
将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。
语料名称 | 语料数量 | 语料来源说明 | 语料特点 | 语料样例 | 是否已分词 |
---|---|---|---|---|---|
chatterbot | 560 | 开源项目 | 按类型分类,质量较高 | Q:你会开心的 A:幸福不是真正的可预测的情绪。 | 否 |
douban(豆瓣多轮) | 352W | 来自北航和微软的paper, 开源项目 | 噪音相对较少,原本是多轮(平均7.6轮) | Q:烟台 十一 哪 好玩 A:哪 都 好玩 · · · · | 是 |
ptt(PTT八卦语料) | 40W | 开源项目,台湾PTT论坛八卦版 | 繁体,语料较生活化,有噪音 | Q:为什么乡民总是欺负国高中生呢QQ A:如果以为选好科系就会变成比尔盖兹那不如退学吧 | 否 |
qingyun(青云语料) | 10W | 某聊天机器人交流群 | 相对不错,生活化 | Q:看来你很爱钱 A:噢是吗?那么你也差不多了 | 否 |
subtitle(电视剧对白语料) | 274W | 开源项目,来自爬取的电影和美剧的字幕 | 有一些噪音,对白不一定是严谨的对话,原本是多轮(平均5.3轮) | Q:京戏里头的人都是不自由的 A:他们让人拿笼子给套起来了了 | 否 |
tieba(贴吧论坛回帖语料) | 232W | 偶然找到的 | 多轮,有噪音 | Q:前排,鲁迷们都起床了吧 A:标题说助攻,但是看了那球,真是活生生的讽刺了 | 否 |
weibo(微博语料) | 443W | 来自华为的paper | 仍有一些噪音 | Q:北京的小纯洁们,周日见。#硬汉摆拍清纯照# A:嗷嗷大湿的左手在干嘛,看着小纯洁撸么。 | 否 |
xiaohuangji(小黄鸡语料) | 45W | 原人人网项目语料 | 有一些不雅对话,少量噪音 | Q:你谈过恋爱么 A:谈过,哎,别提了,伤心..。 | 否 |
语料名称 | 语料原始URL(即出处,尊重原始版权) |
---|---|
chatterbot | https://github.com/gunthercox/chatterbot-corpus/tree/master/chatterbot_corpus/data/chinese |
douban(豆瓣多轮) | https://github.com/MarkWuNLP/MultiTurnResponseSelection |
ptt(PTT八卦语料) | https://github.com/zake7749/Gossiping-Chinese-Corpus |
qingyun(青云语料) | 无 |
subtitle(电视剧对白语料) | https://github.com/fateleak/dgk_lost_conv |
tieba(贴吧论坛回帖语料) | https://pan.baidu.com/s/1mUknfwy1nhSM7XzH8xi7gQ 密码:i4si |
weibo(微博语料) | 61.93.89.94/Noah_NRM_Data/ |
xiaohuangji(小黄鸡语料) | https://github.com/candlewill/Dialog_Corpus |
下载语料 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex
将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为
raw_chat_corpus
-- language
-- process_pipelines
-- raw_chat_corpus
---- chatterbot-1k
---- douban-multiturn-100w
---- ....
-- main.py
-- ...
执行命令即可
python main.py
或者
python3 main.py
每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。
生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer
query \t answer
这个就根据每个人不同的情况自主使用即可
个人对于聊天机器人方向实践也不是很多,以下一篇之前写的知乎专栏供参考 《从产品完整性的角度浅谈chatbot》
https://zhuanlan.zhihu.com/p/34927757
ssm超市订单管理系统
SSM personnel management system
SSM student achievement information management system
SSM二手交易网站
SSM garbage classification management system
Changes in foreign currency bookkeeping and revaluation general ledger balance table (Part 2)
Illustration of etcd access in kubernetes
Sparksql data skew
使用MAME32K进行联机游戏
CSRF攻击
架构设计三原则
CSRF攻击
Oracle RMAN semi automatic recovery script restore phase
[Bert, gpt+kg research] collection of papers on the integration of Pretrain model with knowledge
使用 Compose 实现可见 ScrollBar
oracle apex ajax process + dy 校验
SSM second hand trading website
Oracle APEX 21.2 installation et déploiement en une seule touche
Module not found: Error: Can't resolve './$$_gendir/app/app.module.ngfactory'
ORACLE EBS中消息队列fnd_msg_pub、fnd_message在PL/SQL中的应用
Find in laravel8_ in_ Usage of set and upsert
【Torch】解决tensor参数有梯度,weight不更新的若干思路
Principle analysis of spark
Oracle EBS DataGuard setup
Pratique et réflexion sur l'entrepôt de données hors ligne et le développement Bi
读《敏捷整洁之道:回归本源》后感
Illustration of etcd access in kubernetes
Oracle EBS数据库监控-Zabbix+zabbix-agent2+orabbix
@Transitional step pit
类加载器及双亲委派机制