当前位置:网站首页>《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强
《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强
2022-07-30 17:51:00 【shiter】
回译技术
所谓回译,就是将一种语言的语料翻译为另一种语言,然后再翻译回来的方法。对回译回来的文本,检查其是否与源文档相同,完全相同的话可以抛弃,否则留用。
这种方法在增强文本相似数据集时很有用,尤其是从无到有的构建文本相似数据集。
优点:回译之后的文本在语法结构、选词用词等方面进行了丰富的变换,目前的翻译技术比较成熟,可以提供较高质量的增强数据。
回译,又称为“还原翻译”或“反向翻译”,英文叫Back Translation。意思就是把A语言翻译成B语言,然后在脱离A语言影响的基础上,再把B语言“往回”翻译成A语言,一般用于校对和检查。举个例子便于理解:
源语言: The patient is a senior in local high school.
目标语言: 患者是一名本地高中的高四学生。
回译: The patient is in his fourth year of local high school.
这里通过对比回译和源语言,发现目标语言的“高四”显然不适合国内语境,因为中国的三年高中学制和北美的四年是不一样的,进而可以
边栏推荐
猜你喜欢
随机推荐
躲避雪糕刺客?通过爬虫爬取雪糕价格
DevEco Studio3.0下载失败,提示An unknown error occurred
Valid bracketed strings [greedy exercise]
宝塔搭建PHP自适应懒人网址导航源码实测
Mo Team - Elegant Violence
LayaBox---TypeScript---变量声明
C陷阱与缺陷 第6章 预处理器 6.1 不能忽视宏定义中的空格
BI报表与数据开发
千亿级、大规模:腾讯超大 Apache Pulsar 集群性能调优实践
Promise entry to proficient (1.5w word detailed explanation)
LayaBox---TypeScript---函数
Prometheus 基本概念
数据库系统原理与应用教程(064)—— MySQL 练习题:操作题 51-61(八):查询条件的构造、通配符
什么是工业射线照相设备?
Pagoda builds PHP adaptive lazy website navigation source code measurement
高级语言垃圾回收思路和如何减少性能影响原理分析
CMake library search function does not search LD_LIBRARY_PATH
【HMS core】【FAQ】HMS Toolkit典型问题合集1
知识蒸馏1:基础原理讲解及yolov5项目实战介绍
Web3时代重要基础设施深度拆解:4EVERLAND