当前位置:网站首页>Sogou news-数据集
Sogou news-数据集
2022-08-03 12:28:00 【51CTO】
2,909,551 篇来自 SogouCA 和 SogouCS 新闻语料库 5 个类别的新闻文章。每个类别分别包含 90,000 个训练样 本和 12,000 个测试样本。这些汉字都已经转换成拼音。
This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.
译:
本文对字符级卷积网络(ConvNets)在文本分类中的应用进行了实证研究。我们构建了几个大规模的数据集,以证明字符级卷积网络可以达到最先进或最具竞争力的结果。比较了传统模型,如单词包、n-grams及其TFIDF变体,以及基于单词的ConvNets和递归神经网络等深度学习模型。
大家可以到官网地址下载数据集,我自己也在百度网盘分享了一份。可关注本人公众号,回复“2020082502”获取下载链接。
只要自己有时间,都尽量写写文章,与大家交流分享。
本人公众号:
边栏推荐
- 如何免费获得一个市全年的气象数据?降雨量气温湿度太阳辐射等等数据
- 浅谈程序员的职业操守
- R语言ggplot2可视化:使用ggpubr包的ggline函数可视化折线图、设置add参数为mean_se和dotplot可视化不同水平均值的折线图并为折线图添加误差线(se标准误差)和点阵图
- Mysql重启后innodb和myisam插入的主键id变化总结
- fastposter v2.9.0 programmer must-have poster generator
- Station B responded that "HR said that core users are all Loser": the interviewer was persuaded to quit at the end of last year and will learn lessons to strengthen management
- awk入门教程
- 一次内存泄露排查小结
- 详解虚拟机!京东大佬出品HotSpot VM源码剖析笔记(附完整源码)
- 无监督学习KMeans学习笔记和实例
猜你喜欢
AMS simulation
Station B responded that "HR said that core users are all Loser": the interviewer was persuaded to quit at the end of last year and will learn lessons to strengthen management
Kubernetes 网络入门
图像融合DDcGAN学习笔记
为冲销量下探中低端市场,蔚来新品牌产品定价低至10万?
Key points for account opening of futures companies
基于Sikuli GUI图像识别框架的PC客户端自动化测试实践
随机森林项目实战---气温预测
【精品必知】Pod生命周期
分享一款实用的太阳能充电电路(室内光照可用)
随机推荐
LyScript implements memory stack scanning
常用lambda表达式
self-discipline
图像融合DDcGAN学习笔记
漫谈缺陷管理的自动化实践方案
Vs Shortcut Keys---Explore Different Programming
R语言ggplot2可视化:使用ggpubr包的ggline函数可视化折线图、设置add参数为mean_se和dotplot可视化不同水平均值的折线图并为折线图添加误差线(se标准误差)和点阵图
pandas连接oracle数据库并拉取表中数据到dataframe中、筛选当前时间(sysdate)到一天之前的所有数据(筛选一天范围数据)
php microtime encapsulates the tool class, calculates the running time of the interface (breakpoint)
TiKV & TiFlash 加速复杂业务查询丨TiFlash 应用实践
新评论接口——京东评论接口
Blog records life
[数据仓库]分层概念,ODS,DM,DWD,DWS,DIM的概念「建议收藏」
Mysql重启后innodb和myisam插入的主键id变化总结
Image fusion GAN-FM study notes
3年软件测试经验,不懂自动化基础...不知道我这种测试人员是不是要被淘汰了?
nacos app
数据库系统原理与应用教程(073)—— MySQL 练习题:操作题 131-140(十七):综合练习
The Yangtze river commercial Banks to the interview
[Verilog] HDLBits Problem Solution - Circuits/Sequential Logic/Latches and Flip-Flops