当前位置:网站首页>Sogou news-数据集
Sogou news-数据集
2022-08-03 12:28:00 【51CTO】
2,909,551 篇来自 SogouCA 和 SogouCS 新闻语料库 5 个类别的新闻文章。每个类别分别包含 90,000 个训练样 本和 12,000 个测试样本。这些汉字都已经转换成拼音。
This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.
译:
本文对字符级卷积网络(ConvNets)在文本分类中的应用进行了实证研究。我们构建了几个大规模的数据集,以证明字符级卷积网络可以达到最先进或最具竞争力的结果。比较了传统模型,如单词包、n-grams及其TFIDF变体,以及基于单词的ConvNets和递归神经网络等深度学习模型。
大家可以到官网地址下载数据集,我自己也在百度网盘分享了一份。可关注本人公众号,回复“2020082502”获取下载链接。
只要自己有时间,都尽量写写文章,与大家交流分享。
本人公众号:

边栏推荐
- 数据库系统原理与应用教程(075)—— MySQL 练习题:操作题 151-159(十九):综合练习
- 期货开户中常见问题汇总
- Blazor Server(6) from scratch--policy-based permission verification
- 为冲销量下探中低端市场,蔚来新品牌产品定价低至10万?
- Filebeat 如何保持文件状态?
- 为什么越来越多的开发者放弃使用Postman,而选择Eolink?
- 基于php旅游网站管理系统获取(php毕业设计)
- R语言使用ggpubr包的ggtexttable函数可视化表格数据(直接绘制表格图或者在图像中添加表格数据)、使用tab_add_vline函数自定义表格中竖线(垂直线)的线条类型以及线条粗细
- 自律成就自己
- Last blog for July
猜你喜欢

How does Filebeat maintain file state?

论文理解:“Gradient-enhanced physics-informed neural networks for forwardand inverse PDE problems“

setTimeout, setInterval requestAnimationFrame

基于php家具销售管理系统获取(php毕业设计)

4500 words sum up, a software test engineer need to master the skill books

层次分析法

YOLOv5训练数据提示No labels found、with_suffix使用、yolov5训练时出现WARNING: Ignoring corrupted image and/or label

随机森林项目实战---气温预测

shell编程之条件语句

nacos应用
随机推荐
长江商业银行面试
Key points for account opening of futures companies
从零开始Blazor Server(6)--基于策略的权限验证
899. 有序队列
长城简漫·暑期安全篇⑤ 这个强,不能逞
bash if conditional judgment
使用工作队列管理器(三)
4500 words sum up, a software test engineer need to master the skill books
基于php网上零食商店管理系统获取(php毕业设计)
【精品必知】Pod生命周期
苹果发布 AI 生成模型 GAUDI,文字生成 3D 场景
Autumn recruitment work
Feature Engineering Study Notes
"Digital Economy Panorama White Paper" Financial Digital User Chapter released!
Last blog for July
广州番禺:暑期防溺水,安全不放假
Image fusion DDcGAN study notes
Blazor Server(6) from scratch--policy-based permission verification
特征降维学习笔记(pca和lda)(1)
The common problems in the futures account summary