当前位置:网站首页>机器学习笔记 - 什么是BLEU分数?
机器学习笔记 - 什么是BLEU分数?
2022-06-09 09:25:00 【坐望云起】
1、什么是BLEU分数?
BLEU(BiLingual Evaluation Understudy)或双语评估研究是一种基于分数的方法,用于评估由自然语言处理 (NLP) 系统执行的翻译工作的质量。
基本上,BLEU将机器翻译生成的文本与人类执行并被认为是正确的参考翻译进行比较。
BLEU NLP 评分在其评估过程中,将 MT 句子与参考翻译中的相应句子进行比较。BLEU根据匹配数和 相似度计算得分。
该评分系统的范围在 0 和 1 之间。如果匹配完整且完美,则 BLEU 的值等于 1。如果根本没有匹配,则 BLEU 分配的分数为 0。
获得等于 1 的结果 几乎是不可能的,因为这意味着机器翻译结果与专业翻译的结果完全相同。
BLEU 分数是一种字符串匹配算法,可为 MT 研究人员和开发人员提供基本的质量指标。它可能是过去 15 年来使用最广泛的 MT 质量评估指标。虽然人们普遍认为 BLEU 指标存在许多缺陷,但即使在神经 MT 的鼎盛时期,它仍然是衡量 MT 系统输出的主要指标。
2、如何进行BLEU测量?
1、一种或多种人工参考翻译。这应该是未用于构建系统的数据(训练数据),理想情况下应该是 MT 系统开发人员不知道的。
2、通常建议使用 1,000 或更多的句子来获得有意义的测量结果。样本集太小可能会因匹配或不匹配的几个句子而显着影响分数。
3、完全相同的源数据集的自动翻译输出。
4、执行比较和分数计算的测量实用程序。
通过将它们与一个或一组高质量的人工参考翻译进行比较,为单个 MT 翻译的片段(通常是句子)打分。当一个句子被两个不同的机器翻译系统翻译时,一个翻译可能会匹配参考正确翻译的 75% 的单词,而第二个机器翻译系统的翻译可能会匹配 55% 的单词。两种 MT 翻译可能都是 100% 正确的,但匹配率为 75% 的翻译将被评估为提供了更高的质量,这似乎有些武断。
以下示例说明了此潜在问题。一旦我们选择其中一个翻译作为唯一参考,所有其他正确的翻译都会得分较低。

BLEU 指标在 0 到 1 的范围内对翻译进行评分,以尝试衡量 MT 输出的充分性和流畅性。测试句子得分越接近 1,与人工参考翻译的重叠越多,因此,系统被认为越好。BLEU 分数通常以 1 到 100 的等级表示,以简化沟通,但这不应与准确度百分比相混淆。
MT 输出只有在与参考人工翻译相同时才会得分 1。但即使是完全相同材料的两个称职的人工翻译也可能仅在 0.6 或 0.7 范围内得分,因为他们可能使用不同的词汇和措辞。我们应该警惕非常高的 BLEU 分数(超过 0.7),因为它可能测量不正确或过度拟合。
BLEU 指标还为顺序匹配的单词提供了更高的分数。也就是说,如果 MT 翻译中的一串四个单词以相同的确切顺序与人类参考翻译匹配,则它对 BLEU 分数的积极影响比一串两个匹配单词的影响更大。这意味着,如果准确的翻译使用不同但正确的词或以不同词序匹配的词,则会获得较低的分数。
作为粗略的指导,以下对 BLEU 分数的解释(表示为百分比而不是小数)可能会有所帮助。

3、数学细节

4、论文参考
https://aclanthology.org/P02-1040.pdf
https://aclanthology.org/P02-1040.pdf
边栏推荐
- HAVE FUN | SOFAArk 源码解析活动
- Solve the apscheduler error: run time of job... Next run at:...) "was missed by
- MSF基于SNMP协议的信息收集
- Changan chain chainmaker multi machine environment
- 【新手上路常见问答】非IT企业如何做互联网产品
- JWT和session
- Array. Map() shorthand function
- openstack详解(十六)——openstack Nova安装与数据库配置
- Array.map()简写函数
- webservice服务调用
猜你喜欢

Visual slam Summary - superpoint / superglue
![[technology, business and management] drama watching and Entrepreneurship: Silicon Valley season 5 Episode 7-8](/img/17/39590f150fab951c8210e078a10939.png)
[technology, business and management] drama watching and Entrepreneurship: Silicon Valley season 5 Episode 7-8

CVE-2019-0192 Apache solr远程反序列化代码执行漏洞危害

Interviewer: how to open a video? What is second on video?

Que pensez - vous des architectures Multi - temps comme DAPR et layotto?

MSF模块查找详解

DNMAP架构实现和扫描实战

MSF基于SSH协议的信息收集

openstack详解(十四)——Glance Keystone注册

Summary of Android development interview experience and compilation of actual records (must see)
随机推荐
关于电脑网络浏览器没有网络,但是QQ和微信可以登录,解决浏览器网络问题
Kusionstack has a sense of open source | it took two years to break the dilemma of "separating lines like mountains"
Redis集群实例内存使用率飙升排查
redis info命令 memory内存信息说明
[Android -- interview] the top ten platforms where programmers have joined w every month
NIO BIO AIO
[5机器学习]全网最易懂的决策树(附源码)
[linear algebra] understand eigenvalues and eigenvectors
最小路径和
openstack详解(十七)——openstack Nova其他配置
如何看待 Dapr、Layotto 這種多運行時架構?
MSF information collection based on TCP protocol
Changan chain chainmaker multi machine environment
WebRTC系列--计算帧率及帧间隔
Postman interface pressure test
MSF基于SNMP协议的信息收集
Dotnet core can also coordinate distributed transactions!
[linear algebra] understand positive definite matrix and semi positive definite matrix
Kusionstack has a sense of open source | it took two years to break the dilemma of "separating lines like mountains"
【科技、商业和管理】看剧学创业:《硅谷》第五季第4-6集