当前位置:网站首页>Sogou news-数据集
Sogou news-数据集
2022-08-03 12:28:00 【51CTO】
2,909,551 篇来自 SogouCA 和 SogouCS 新闻语料库 5 个类别的新闻文章。每个类别分别包含 90,000 个训练样 本和 12,000 个测试样本。这些汉字都已经转换成拼音。
This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.
译:
本文对字符级卷积网络(ConvNets)在文本分类中的应用进行了实证研究。我们构建了几个大规模的数据集,以证明字符级卷积网络可以达到最先进或最具竞争力的结果。比较了传统模型,如单词包、n-grams及其TFIDF变体,以及基于单词的ConvNets和递归神经网络等深度学习模型。
大家可以到官网地址下载数据集,我自己也在百度网盘分享了一份。可关注本人公众号,回复“2020082502”获取下载链接。
只要自己有时间,都尽量写写文章,与大家交流分享。
本人公众号:
边栏推荐
- setTimeout, setInterval requestAnimationFrame
- R language ggplot2 visualization: use the patchwork bag plot_layout function will be more visual image together, ncol parameter specifies the number of rows, specify byrow parameters configuration dia
- 常用lambda表达式
- R语言ggplot2可视化:使用ggpubr包的ggline函数可视化折线图、设置add参数为mean_se和dotplot可视化不同水平均值的折线图并为折线图添加误差线(se标准误差)和点阵图
- How to build an overseas purchasing system/purchasing website - source code analysis
- 子结点的数量
- Five, the function calls
- mysql进阶(二十四)防御SQL注入的方法总结
- 从零开始C语言精讲篇5:指针
- Autumn recruitment work
猜你喜欢
详解虚拟机!京东大佬出品HotSpot VM源码剖析笔记(附完整源码)
What knowledge points do you need to master to learn software testing?
fastposter v2.9.0 programmer must-have poster generator
fastposter v2.9.0 程序员必备海报生成器
什么是分布式锁?几种分布式锁分别是怎么实现的?
JUC(三):锁核心类AQS ing
Image fusion DDcGAN study notes
net start mysql 启动报错:发生系统错误5。拒绝访问。
How to build an overseas purchasing system/purchasing website - source code analysis
为什么越来越多的开发者放弃使用Postman,而选择Eolink?
随机推荐
使用 %Status 值
第3章 搭建短视频App基础架构
从零开始Blazor Server(6)--基于策略的权限验证
漫谈缺陷管理的自动化实践方案
随机森林项目实战---气温预测
通过点击CheckBox实现背景变换小案例
ROS中编译通过但是遇到可执行文件找不到的问题
数据库系统原理与应用教程(076)—— MySQL 练习题:操作题 160-167(二十):综合练习
自律成就自己
R语言ggplot2可视化:使用ggpubr包的ggline函数可视化折线图、设置add参数为mean_se和dotplot可视化不同水平均值的折线图并为折线图添加误差线(se标准误差)和点阵图
Mysql重启后innodb和myisam插入的主键id变化总结
899. 有序队列
(通过页面)阿里云云效上传jar
bash for loop
Filebeat 如何保持文件状态?
解决oracle安装在linux中jdk的冲突
R语言绘制时间序列的自相关函数图:使用acf函数可视化时间序列数据的自相关系数图
浅谈程序员的职业操守
图像融合SDDGAN文章学习
AMS simulation