当前位置:网站首页>利用 AWS SageMaker BlazingText 对不均衡文本进行多分类
利用 AWS SageMaker BlazingText 对不均衡文本进行多分类
2020-11-06 01:22:00 【InfoQ】
背景
文本分类(Text Classification) 属于自然语言处理领域,是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程。然而在现实问题中,经常会遇到数据样本的类别不平衡 (class imbalance) 现象,严重影响了文本分类的最终结果。所谓样本不均衡指的是给定数据集中有的类别数据多,有的数据类别少,且数据占比多的数据类别样本与占比小的数据类别样本两者之间达到较大的比例。
BlazingText 是 AWS SageMaker 的一个内置算法,提供了 Word2vec 和文本分类算法的高度优化的实现。本文使用了 Sagemaker BlazingText 实现了文本多分类。在样本不均衡问题上,使用了回译和 EDA 两个方法对少类别样本进行了过采样处理,其中回译方法调用了 AWS Translate 服务进行了翻译再翻译,而 EDA 方法主要使用同义词替换、随机插入、随机交换、随机删除对文本数据进行处理。 本文也使用了AWS SageMaker 的自动超参数优化来为 BlazingText 的文本分类算法找到最优超参数。
本文使用基于 DBpedia 的公开数据集处理生成的含有14个类别的不均衡文本数据,并进行了不做任何样本不均衡处理的 Baseline 实验和包含回译和 EDA 两个方法的过采样实验。
原文链接:【https://www.infoq.cn/article/xbSAYuJcQrm048GHl5dJ】。未经作者许可,禁止转载。
版权声明
本文为[InfoQ]所创,转载请带上原文链接,感谢
https://www.infoq.cn/article/xbSAYuJcQrm048GHl5dJ?utm_source=rss&utm_medium=article
边栏推荐
- 通过深层神经网络生成音乐
- CCR炒币机器人:“比特币”数字货币的大佬,你不得不了解的知识
- C++和C++程序员快要被市场淘汰了
- Elasticsearch database | elasticsearch-7.5.0 application construction
- After brushing leetcode's linked list topic, I found a secret!
- 03_ Detailed explanation and test of installation and configuration of Ubuntu Samba
- TensorFlow2.0 问世,Pytorch还能否撼动老大哥地位?
- 免费的专利下载教程(知网、espacenet强强联合)
- hadoop 命令总结
- A debate on whether flv should support hevc
猜你喜欢
3分钟读懂Wi-Fi 6于Wi-Fi 5的优势
分布式ID生成服务,真的有必要搞一个
How do the general bottom buried points do?
自然语言处理之命名实体识别-tanfordcorenlp-NER(一)
Don't go! Here is a note: picture and text to explain AQS, let's have a look at the source code of AQS (long text)
通过深层神经网络生成音乐
使用NLP和ML来提取和构造Web数据
文本去重的技术方案讨论(一)
mac 安装hanlp,以及win下安装与使用
How long does it take you to work out an object-oriented programming interview question from Ali school?
随机推荐
小白量化投资交易入门课(python入门金融分析)
《Google軟體測試之道》 第一章google軟體測試介紹
hadoop 命令总结
【效能優化】納尼?記憶體又溢位了?!是時候總結一波了!!
Every day we say we need to do performance optimization. What are we optimizing?
GDB除錯基礎使用方法
Asp.Net Core learning notes: Introduction
Microservices: how to solve the problem of link tracing
01 . Go语言的SSH远程终端及WebSocket
WeihanLi.Npoi 1.11.0/1.12.0 Release Notes
Chainlink将美国选举结果带入区块链 - Everipedia
用Python构建和可视化决策树
mac 下常用快捷键,mac启动ftp
如何对Pandas DataFrame进行自定义排序
制造和新的自动化技术是什么?
通过深层神经网络生成音乐
7.2.2 compressing static resources through gzipresourceresolver
6.9.1 flashmapmanager initialization (flashmapmanager redirection Management) - SSM in depth analysis and project practice
Real time data synchronization scheme based on Flink SQL CDC
恕我直言,我也是才知道ElasticSearch条件更新是这么玩的