当前位置:网站首页>谷歌开源能翻译101种语言的AI模型,只比Facebook多一种
谷歌开源能翻译101种语言的AI模型,只比Facebook多一种
2020-11-08 12:56:00 【osc_1x6ycmfm】
大数据文摘出品
来源:VB
10月底,Facebook发布了一款可翻译100种语言的机器学习模型,微软发布了一款能翻译94种语言的模型,谷歌自然也不甘示弱。
继Facebook和微软后,谷歌开源了一种名为MT5的模型,称该模型在一系列英语自然语言处理任务上取得了最先进的效果。
MT5是谷歌的T5模型的多语言变体,已在包含101种语言的数据集中进行了预训练,就比Facebook多了一种。
Github地址:
https://github.com/google-research/multilingual-t5
MT5包含3亿到130亿个参数,可直接适用于多种语言环境
MT5包含3亿到130亿个参数,据悉,它能够学习100多种语言而不会受到干扰。
MT5是在MC4上训练的,MC4是C4的一个子集,MC4包含大约750GB的英文文本,这些文本来自Common Crawl存储库(Common Crawl 包含从互联网上抓取的数十亿个网页)。虽然C4数据集被明确地设计为只使用英语,但MC4覆盖了107种语言,包含10,000个或更多的网页。
不过,数据集仍存在一定的偏差,谷歌研究人员试图通过删除MC4文档中的重复行和过滤含有错误单词的页面来减轻MT5的偏差。他们还使用工具检测了每个页面的主要语言,并删除了可信度低于70%的页面。
谷歌表示,最大的MT5型号有130亿个参数,超过了2020年10月测试的所有基准。当然,基准是否充分反映了模型的真实表现,这是一个值得争论的话题。
一些研究表明,开放域问答模型(Open-Domain Question-Answering,理论上能够用新颖答案回答新颖问题的模型)通常只是根据数据集简单地记住在训练数据中找到的答案。但是谷歌的研究人员断言MT5是迈向功能强大的模型的一步,这些功能不需要具有挑战性的建模技术。
谷歌的研究人员在一篇描述MT5的论文中写道,“总的来说,我们的研究结果突出了模型能力在跨语言表征学习中的重要性,并表明,通过依赖于过滤、并行数据或中间任务,扩大简单的预训练配方是一个可行的替代方案。”“我们演示了T5配方直接适用于多语言设置,并在不同的基准测试集上实现了强大的性能。”
相比Facebook和微软,谷歌的MT5似乎略胜一筹
Facebook的新模型被称作M2M-100,Facebook宣称它是第一个多语言机器翻译模型,可以直接在100种语言中的任何一对之间来回翻译。Facebook AI构建了一个共计由100种语言的75亿个句子组成的庞大数据集。使用这个数据集,研究团队训练了一个拥有超过150亿个参数的通用翻译模型,据Facebook的一篇博客描述,该模型可以“获取相关语言的信息,并反映出更多样化的语言文本和语言形态”。
而微软推出的这款机器学习翻译模型叫做T-ULRv2,可以翻译94种语言。微软声称,T-ULRv2在XTREME(谷歌创建的一种自然语言处理基准测试)中获得了最好的搜索结果,并将使用它来改进Word中的语义搜索、Outlook和team中的回复建议等功能。
T-ULRv2在XTREME中处在榜首
T-ULRv2是微软研究院和图灵团队的联合研究出品的,包含5.5亿个参数,模型利用这些参数进行预测。微软研究人员在一个多语言数据语料库上训练了T-ULRv2,该数据语料库来自由94种语言组成的网页。在训练过程中,T-ULRv2通过预测不同语言句子中隐藏的单词来进行翻译,偶尔也会从英语和法语等成对翻译中获得上下文线索。
总之,从翻译的语言数量来说,谷歌的MT5似乎略胜一筹,但数量多并不意味着准确性高,就谷歌和Facebook的两款翻译模型来说,在某些低资源语种的翻译上仍有提升空间,比如沃洛夫语、马拉地语。此外,每款机器学习模型都会存在一定的偏差,正如艾伦AI研究所的科研人员所说,“现有的机器学习技术都没办法避免这一缺陷,人们急需更好的训练模式和模型建构”。
相关报道:
https://venturebeat.com/2020/10/26/google-open-sources-mt5-a-multilingual-model-trained-on-over-101-languages/
https://venturebeat.com/2020/10/20/microsoft-details-t-urlv2-model-that-can-translate-between-94-languages/
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
版权声明
本文为[osc_1x6ycmfm]所创,转载请带上原文链接,感谢
https://my.oschina.net/u/4273871/blog/4708155
边栏推荐
- Top 5 Chinese cloud manufacturers in 2018: Alibaba cloud, Tencent cloud, AWS, telecom, Unicom
- Top 5 Chinese cloud manufacturers in 2018: Alibaba cloud, Tencent cloud, AWS, telecom, Unicom
- 蘑菇街电商交易平台服务架构及改造优化历程(含PPT)
- Python基础语法
- Python Gadgets: code conversion
- python小工具:编码转换
- python基础教程python opencv pytesseract 验证码识别的实现
- 吐血整理!阿里巴巴 Android 开发手册!(附网盘链接)
- 漫画|讲解一下如何写简历&项目
- VC + + specified directory file output by time
猜你喜欢
【Python 1-6】Python教程之——数字
Eight ways to optimize if else code
Don't look! Full interpretation of Alibaba cloud's original data lake system! (Internet disk link attached)
Flink从入门到真香(10、Sink数据输出-Elasticsearch)
Installing MacOS 11 Big Sur in virtual machine
AQS解析
Top 5 Chinese cloud manufacturers in 2018: Alibaba cloud, Tencent cloud, AWS, telecom, Unicom
Service architecture and transformation optimization process of e-commerce trading platform in mogujie (including ppt)
This time Kwai tiktok is faster than shaking.
Flink: from introduction to Zhenxiang (3. Reading data from collection and file)
随机推荐
阿里撕下电商标签
Implementation of verification code recognition in Python opencv pytesseract
一个方案提升Flutter内存利用率
Flink的sink实战之一:初探
适合c/c++新手学习的一些项目,别给我错过了!
运维人员常用到的 11 款服务器监控工具
WLAN 直连(对等连接或 P2P)调研及iOS跨平台调研
分布式文档存储数据库之MongoDB基础入门
后端程序员必备:分布式事务基础篇
阿里出品!视觉计算开发者系列手册(附网盘链接)
This year's salary is 35W +! Why is the salary of Internet companies getting higher and higher?
虚拟机中安装 macOS 11 big sur
在51CTO学院Get到PMP证书
优化if-else代码的八种方案
Personal current technology stack
Research on WLAN direct connection (peer-to-peer connection or P2P) and cross platform research of IOS
Entry level! Teach you how to develop small programs without asking for help (with internet disk link)
211 postgraduate entrance examination failed, stay up for two months, get the byte offer! [face to face sharing]
On monotonous stack
最全!阿里巴巴经济体云原生实践!(附网盘链接)