当前位置:网站首页>谷歌开源能翻译101种语言的AI模型,只比Facebook多一种
谷歌开源能翻译101种语言的AI模型,只比Facebook多一种
2020-11-08 12:56:00 【osc_1x6ycmfm】
大数据文摘出品
来源:VB
10月底,Facebook发布了一款可翻译100种语言的机器学习模型,微软发布了一款能翻译94种语言的模型,谷歌自然也不甘示弱。
继Facebook和微软后,谷歌开源了一种名为MT5的模型,称该模型在一系列英语自然语言处理任务上取得了最先进的效果。
MT5是谷歌的T5模型的多语言变体,已在包含101种语言的数据集中进行了预训练,就比Facebook多了一种。
Github地址:
https://github.com/google-research/multilingual-t5
MT5包含3亿到130亿个参数,可直接适用于多种语言环境
MT5包含3亿到130亿个参数,据悉,它能够学习100多种语言而不会受到干扰。
MT5是在MC4上训练的,MC4是C4的一个子集,MC4包含大约750GB的英文文本,这些文本来自Common Crawl存储库(Common Crawl 包含从互联网上抓取的数十亿个网页)。虽然C4数据集被明确地设计为只使用英语,但MC4覆盖了107种语言,包含10,000个或更多的网页。
不过,数据集仍存在一定的偏差,谷歌研究人员试图通过删除MC4文档中的重复行和过滤含有错误单词的页面来减轻MT5的偏差。他们还使用工具检测了每个页面的主要语言,并删除了可信度低于70%的页面。
谷歌表示,最大的MT5型号有130亿个参数,超过了2020年10月测试的所有基准。当然,基准是否充分反映了模型的真实表现,这是一个值得争论的话题。
一些研究表明,开放域问答模型(Open-Domain Question-Answering,理论上能够用新颖答案回答新颖问题的模型)通常只是根据数据集简单地记住在训练数据中找到的答案。但是谷歌的研究人员断言MT5是迈向功能强大的模型的一步,这些功能不需要具有挑战性的建模技术。
谷歌的研究人员在一篇描述MT5的论文中写道,“总的来说,我们的研究结果突出了模型能力在跨语言表征学习中的重要性,并表明,通过依赖于过滤、并行数据或中间任务,扩大简单的预训练配方是一个可行的替代方案。”“我们演示了T5配方直接适用于多语言设置,并在不同的基准测试集上实现了强大的性能。”
相比Facebook和微软,谷歌的MT5似乎略胜一筹
Facebook的新模型被称作M2M-100,Facebook宣称它是第一个多语言机器翻译模型,可以直接在100种语言中的任何一对之间来回翻译。Facebook AI构建了一个共计由100种语言的75亿个句子组成的庞大数据集。使用这个数据集,研究团队训练了一个拥有超过150亿个参数的通用翻译模型,据Facebook的一篇博客描述,该模型可以“获取相关语言的信息,并反映出更多样化的语言文本和语言形态”。
而微软推出的这款机器学习翻译模型叫做T-ULRv2,可以翻译94种语言。微软声称,T-ULRv2在XTREME(谷歌创建的一种自然语言处理基准测试)中获得了最好的搜索结果,并将使用它来改进Word中的语义搜索、Outlook和team中的回复建议等功能。
T-ULRv2在XTREME中处在榜首
T-ULRv2是微软研究院和图灵团队的联合研究出品的,包含5.5亿个参数,模型利用这些参数进行预测。微软研究人员在一个多语言数据语料库上训练了T-ULRv2,该数据语料库来自由94种语言组成的网页。在训练过程中,T-ULRv2通过预测不同语言句子中隐藏的单词来进行翻译,偶尔也会从英语和法语等成对翻译中获得上下文线索。
总之,从翻译的语言数量来说,谷歌的MT5似乎略胜一筹,但数量多并不意味着准确性高,就谷歌和Facebook的两款翻译模型来说,在某些低资源语种的翻译上仍有提升空间,比如沃洛夫语、马拉地语。此外,每款机器学习模型都会存在一定的偏差,正如艾伦AI研究所的科研人员所说,“现有的机器学习技术都没办法避免这一缺陷,人们急需更好的训练模式和模型建构”。
相关报道:
https://venturebeat.com/2020/10/26/google-open-sources-mt5-a-multilingual-model-trained-on-over-101-languages/
https://venturebeat.com/2020/10/20/microsoft-details-t-urlv2-model-that-can-translate-between-94-languages/
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
版权声明
本文为[osc_1x6ycmfm]所创,转载请带上原文链接,感谢
https://my.oschina.net/u/4273871/blog/4708155
边栏推荐
- 笔试面试题目:求丢失的猪
- PMP心得分享
- 当Kubernetes遇到机密计算,看阿里巴巴如何保护容器内数据的安全!(附网盘链接)
- Flink从入门到真香(6、Flink实现UDF函数-实现更细粒度的控制流)
- 新的目标市场在哪里?锚定的产品是什么?| 十问2021中国企业服务
- Top 5 Chinese cloud manufacturers in 2018: Alibaba cloud, Tencent cloud, AWS, telecom, Unicom
- 应届生年薪35w+ !倒挂老员工,互联网大厂薪资为何越来越高?
- 211 postgraduate entrance examination failed, stay up for two months, get the byte offer! [face to face sharing]
- 你的云服务器可以用来做什么?云服务器有什么用途?
- 擅长To C的腾讯,如何借腾讯云在这几个行业云市场占有率第一?
猜你喜欢
一文剖析2020年最火十大物联网应用|IoT Analytics 年度重磅报告出炉!
Personal current technology stack
Adobe Lightroom / LR 2021 software installation package (with installation tutorial)
如何将 PyTorch Lightning 模型部署到生产中
Analysis of ArrayList source code
当Kubernetes遇到机密计算,看阿里巴巴如何保护容器内数据的安全!(附网盘链接)
YGC问题排查,又让我涨姿势了!
Flink's sink: a preliminary study
Ali! Visual computing developer's series of manuals (with internet disk link)
The progress bar written in Python is so wonderful~
随机推荐
吐血整理!阿里巴巴 Android 开发手册!(附网盘链接)
Flink从入门到真香(7、Sink数据输出-文件)
Windows下快递投递柜、寄存柜的软件初探
Istio流量管理--Ingress Gateway
Top 5 Chinese cloud manufacturers in 2018: Alibaba cloud, Tencent cloud, AWS, telecom, Unicom
值得一看!EMR弹性低成本离线大数据分析最佳实践(附网盘链接)
Python基础语法
渤海银行百万级罚单不断:李伏安却称治理完善,增速呈下滑趋势
Rust: performance test criteria Library
入门级!教你小程序开发不求人(附网盘链接)
漫画|讲解一下如何写简历&项目
PDMS cutting software
2天,利用下班后的4小时开发一个测试工具
It's worth seeing! EMR elastic low cost offline big data analysis best practice (with network disk link)
Flink的sink实战之一:初探
还不快看!对于阿里云云原生数据湖体系全解读!(附网盘链接)
Flink from introduction to Zhenxiang (10. Sink data output elasticsearch)
C language I blog assignment 03
笔试面试题目:盛水最多的容器
Xamarin deploys IOS from scratch Walterlv.CloudKeyboard application