当前位置:网站首页>利用 AWS SageMaker BlazingText 对不均衡文本进行多分类
利用 AWS SageMaker BlazingText 对不均衡文本进行多分类
2020-11-06 01:22:00 【InfoQ】
背景
文本分类(Text Classification) 属于自然语言处理领域,是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程。然而在现实问题中,经常会遇到数据样本的类别不平衡 (class imbalance) 现象,严重影响了文本分类的最终结果。所谓样本不均衡指的是给定数据集中有的类别数据多,有的数据类别少,且数据占比多的数据类别样本与占比小的数据类别样本两者之间达到较大的比例。
BlazingText 是 AWS SageMaker 的一个内置算法,提供了 Word2vec 和文本分类算法的高度优化的实现。本文使用了 Sagemaker BlazingText 实现了文本多分类。在样本不均衡问题上,使用了回译和 EDA 两个方法对少类别样本进行了过采样处理,其中回译方法调用了 AWS Translate 服务进行了翻译再翻译,而 EDA 方法主要使用同义词替换、随机插入、随机交换、随机删除对文本数据进行处理。 本文也使用了AWS SageMaker 的自动超参数优化来为 BlazingText 的文本分类算法找到最优超参数。
本文使用基于 DBpedia 的公开数据集处理生成的含有14个类别的不均衡文本数据,并进行了不做任何样本不均衡处理的 Baseline 实验和包含回译和 EDA 两个方法的过采样实验。
原文链接:【https://www.infoq.cn/article/xbSAYuJcQrm048GHl5dJ】。未经作者许可,禁止转载。
版权声明
本文为[InfoQ]所创,转载请带上原文链接,感谢
https://www.infoq.cn/article/xbSAYuJcQrm048GHl5dJ?utm_source=rss&utm_medium=article
边栏推荐
猜你喜欢
How to select the evaluation index of classification model
How to demote a domain controller in Windows Server 2012 and later
tensorflow之tf.tile\tf.slice等函数的基本用法解读
面经手册 · 第12篇《面试官,ThreadLocal 你要这么问,我就挂了!》
drf JWT認證模組與自定製
【新閣教育】窮學上位機系列——搭建STEP7模擬環境
python过滤敏感词记录
DRF JWT authentication module and self customization
如何将数据变成资产?吸引数据科学家
Technical director, to just graduated programmers a word - do a good job in small things, can achieve great things
随机推荐
The practice of the architecture of Internet public opinion system
制造和新的自动化技术是什么?
7.2.2 compressing static resources through gzipresourceresolver
WeihanLi.Npoi 1.11.0/1.12.0 Release Notes
数字城市响应相关国家政策大力发展数字孪生平台的建设
嘘!异步事件这样用真的好么?
一时技痒,撸了个动态线程池,源码放Github了
“颜值经济”的野望:华熙生物净利率六连降,收购案遭上交所问询
如果前端不使用SPA又能怎样?- Hacker News
How to get started with new HTML5 (2)
Computer TCP / IP interview 10 even asked, how many can you withstand?
Pattern matching: The gestalt approach一种序列的文本相似度方法
多机器人行情共享解决方案
幽默:黑客式编程其实类似机器学习!
向北京集结!OpenI/O 2020启智开发者大会进入倒计时
【新閣教育】窮學上位機系列——搭建STEP7模擬環境
Swagger 3.0 天天刷屏,真的香嗎?
用Python构建和可视化决策树
PPT画成这样,述职答辩还能过吗?
深度揭祕垃圾回收底層,這次讓你徹底弄懂她