当前位置:网站首页>《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强
《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强
2022-07-30 17:51:00 【shiter】
回译技术
所谓回译,就是将一种语言的语料翻译为另一种语言,然后再翻译回来的方法。对回译回来的文本,检查其是否与源文档相同,完全相同的话可以抛弃,否则留用。
这种方法在增强文本相似数据集时很有用,尤其是从无到有的构建文本相似数据集。
优点:回译之后的文本在语法结构、选词用词等方面进行了丰富的变换,目前的翻译技术比较成熟,可以提供较高质量的增强数据。
回译,又称为“还原翻译”或“反向翻译”,英文叫Back Translation。意思就是把A语言翻译成B语言,然后在脱离A语言影响的基础上,再把B语言“往回”翻译成A语言,一般用于校对和检查。举个例子便于理解:
源语言: The patient is a senior in local high school.
目标语言: 患者是一名本地高中的高四学生。
回译: The patient is in his fourth year of local high school.
这里通过对比回译和源语言,发现目标语言的“高四”显然不适合国内语境,因为中国的三年高中学制和北美的四年是不一样的,进而可以
边栏推荐
猜你喜欢

针不戳,数据库性能优化八大方案。

5分钟搞懂MySQL - 行转列

ESP8266-Arduino编程实例-HC-SR04超声波传感器驱动

网络基础(三)01-网络的基础概念——URL地址组成之协议、主机地址、路径和参数&127.0.0.1本地回环地址& 查看网址IP地址并访问之ping空格+网址&netstat -anb查看本机占用端口

一个 15 年 SAP ABAP 开发人员分享的 SAPGUI 一些个性化设置和实用小技巧试读版

weiit新零售小程序如何探索数字化门店的破局之路

ESP8266-Arduino编程实例-BMP180气压温度传感器驱动

图解LeetCode——11. 盛最多水的容器(难度:中等)

This year..I sincerely recommend the professional engineer to upgrade to the book!

leetcode-547:省份数量
随机推荐
首发!阿里技术大牛最新耗时半个月整理出最全MySQL性能优化和高可用架构技术宝典,直接封神!
Graph Attention Mechanism
17.机器学习系统的设计
一个 15 年 SAP ABAP 开发人员分享的 SAPGUI 一些个性化设置和实用小技巧
强啊,点赞业务缓存设计优化探索之路。
Quickly build an e-commerce platform based on Amazon cloud technology serverless service - performance
数据库系统原理与应用教程(064)—— MySQL 练习题:操作题 51-61(八):查询条件的构造、通配符
592. Fraction Addition and Subtraction
银行适用:此文能够突破你的运维流程管理问题
数据库系统原理与应用教程(065)—— MySQL 练习题:操作题 62-70(九):分组查询与子查询
这玩意儿都能优化?果然是细节都在魔鬼里。
LayaBox---TypeScript---基础数据类型
Moralis去中心化Web3应用开发教程
数据库系统原理与应用教程(063)—— MySQL 练习题:操作题 39-50(七):SELECT 基本语法联系
Metaverse Web 3.0 和 DeFi大师班
JVM诊断命令jcmd介绍
LayaBox---TypeScript---类型推论
Pagoda builds PHP adaptive lazy website navigation source code measurement
LayaBox---TypeScript---类型兼容性
LayaBox---TypeScript---枚举