当前位置:网站首页>利用 AWS SageMaker BlazingText 对不均衡文本进行多分类
利用 AWS SageMaker BlazingText 对不均衡文本进行多分类
2020-11-06 01:22:00 【InfoQ】
背景
文本分类(Text Classification) 属于自然语言处理领域,是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程。然而在现实问题中,经常会遇到数据样本的类别不平衡 (class imbalance) 现象,严重影响了文本分类的最终结果。所谓样本不均衡指的是给定数据集中有的类别数据多,有的数据类别少,且数据占比多的数据类别样本与占比小的数据类别样本两者之间达到较大的比例。
BlazingText 是 AWS SageMaker 的一个内置算法,提供了 Word2vec 和文本分类算法的高度优化的实现。本文使用了 Sagemaker BlazingText 实现了文本多分类。在样本不均衡问题上,使用了回译和 EDA 两个方法对少类别样本进行了过采样处理,其中回译方法调用了 AWS Translate 服务进行了翻译再翻译,而 EDA 方法主要使用同义词替换、随机插入、随机交换、随机删除对文本数据进行处理。 本文也使用了AWS SageMaker 的自动超参数优化来为 BlazingText 的文本分类算法找到最优超参数。
本文使用基于 DBpedia 的公开数据集处理生成的含有14个类别的不均衡文本数据,并进行了不做任何样本不均衡处理的 Baseline 实验和包含回译和 EDA 两个方法的过采样实验。
原文链接:【https://www.infoq.cn/article/xbSAYuJcQrm048GHl5dJ】。未经作者许可,禁止转载。
版权声明
本文为[InfoQ]所创,转载请带上原文链接,感谢
https://www.infoq.cn/article/xbSAYuJcQrm048GHl5dJ?utm_source=rss&utm_medium=article
边栏推荐
- python 保存list数据
- 全球疫情加速互联网企业转型,区块链会是解药吗?
- 用Keras LSTM构建编码器-解码器模型
- Top 10 best big data analysis tools in 2020
- Cos start source code and creator
- 神经网络简史
- C language 100 question set 004 - statistics of the number of people of all ages
- 給萌新HTML5 入門指南(二)
- Basic principle and application of iptables
- Polkadot series (2) -- detailed explanation of mixed consensus
猜你喜欢
Cos start source code and creator
多机器人行情共享解决方案
车的换道检测
你的财务报告该换个高级的套路了——财务分析驾驶舱
Existence judgment in structured data
Vue 3 responsive Foundation
Can't be asked again! Reentrantlock source code, drawing a look together!
加速「全民直播」洪流,如何攻克延时、卡顿、高并发难题?
面经手册 · 第12篇《面试官,ThreadLocal 你要这么问,我就挂了!》
3分钟读懂Wi-Fi 6于Wi-Fi 5的优势
随机推荐
Can't be asked again! Reentrantlock source code, drawing a look together!
CCR炒币机器人:“比特币”数字货币的大佬,你不得不了解的知识
Chainlink将美国选举结果带入区块链 - Everipedia
(2)ASP.NET Core3.1 Ocelot路由
xmppmini 專案詳解:一步一步從原理跟我學實用 xmpp 技術開發 4.字串解碼祕笈與訊息包
嘗試從零開始構建我的商城 (二) :使用JWT保護我們的資訊保安,完善Swagger配置
直播预告 | 微服务架构学习系列直播第三期
mac 下常用快捷键,mac启动ftp
DRF JWT authentication module and self customization
7.2.2 compressing static resources through gzipresourceresolver
Network programming NiO: Bio and NiO
快快使用ModelArts,零基础小白也能玩转AI!
钻石标准--Diamond Standard
Group count - word length
X Window System介紹
Microservices: how to solve the problem of link tracing
连肝三个通宵,JVM77道高频面试题详细分析,就这?
python过滤敏感词记录
基於MVC的RESTFul風格API實戰
[performance optimization] Nani? Memory overflow again?! It's time to sum up the wave!!