当前位置:网站首页>利用 AWS SageMaker BlazingText 对不均衡文本进行多分类
利用 AWS SageMaker BlazingText 对不均衡文本进行多分类
2020-11-06 01:22:00 【InfoQ】
背景
文本分类(Text Classification) 属于自然语言处理领域,是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程。然而在现实问题中,经常会遇到数据样本的类别不平衡 (class imbalance) 现象,严重影响了文本分类的最终结果。所谓样本不均衡指的是给定数据集中有的类别数据多,有的数据类别少,且数据占比多的数据类别样本与占比小的数据类别样本两者之间达到较大的比例。
BlazingText 是 AWS SageMaker 的一个内置算法,提供了 Word2vec 和文本分类算法的高度优化的实现。本文使用了 Sagemaker BlazingText 实现了文本多分类。在样本不均衡问题上,使用了回译和 EDA 两个方法对少类别样本进行了过采样处理,其中回译方法调用了 AWS Translate 服务进行了翻译再翻译,而 EDA 方法主要使用同义词替换、随机插入、随机交换、随机删除对文本数据进行处理。 本文也使用了AWS SageMaker 的自动超参数优化来为 BlazingText 的文本分类算法找到最优超参数。
本文使用基于 DBpedia 的公开数据集处理生成的含有14个类别的不均衡文本数据,并进行了不做任何样本不均衡处理的 Baseline 实验和包含回译和 EDA 两个方法的过采样实验。
原文链接:【https://www.infoq.cn/article/xbSAYuJcQrm048GHl5dJ】。未经作者许可,禁止转载。
版权声明
本文为[InfoQ]所创,转载请带上原文链接,感谢
https://www.infoq.cn/article/xbSAYuJcQrm048GHl5dJ?utm_source=rss&utm_medium=article
边栏推荐
- 從小公司進入大廠,我都做對了哪些事?
- CCR炒币机器人:“比特币”数字货币的大佬,你不得不了解的知识
- C language 100 question set 004 - statistics of the number of people of all ages
- Ubuntu18.04上安裝NS-3
- Pycharm快捷键 自定义功能形式
- WeihanLi.Npoi 1.11.0/1.12.0 Release Notes
- 幽默:黑客式编程其实类似机器学习!
- The practice of the architecture of Internet public opinion system
- Basic principle and application of iptables
- 有关PDF417条码码制的结构介绍
猜你喜欢
随机推荐
Troubleshooting and summary of JVM Metaspace memory overflow
Pycharm快捷键 自定义功能形式
Query意图识别分析
微服務 - 如何解決鏈路追蹤問題
通过深层神经网络生成音乐
Leetcode's ransom letter
After brushing leetcode's linked list topic, I found a secret!
C++和C++程序员快要被市场淘汰了
前端模組化簡單總結
01 . Go语言的SSH远程终端及WebSocket
简直骚操作,ThreadLocal还能当缓存用
C language 100 question set 004 - statistics of the number of people of all ages
Jmeter——ForEach Controller&Loop Controller
WeihanLi.Npoi 1.11.0/1.12.0 Release Notes
容联完成1.25亿美元F轮融资
網路程式設計NIO:BIO和NIO
如何将数据变成资产?吸引数据科学家
文本去重的技术方案讨论(一)
不吹不黑,跨平臺框架AspNetCore開發實踐雜談
向北京集结!OpenI/O 2020启智开发者大会进入倒计时