当前位置:网站首页>AI表现越差,获得奖金越高?纽约大学博士拿出百万重金,悬赏让大模型表现差劲的任务
AI表现越差,获得奖金越高?纽约大学博士拿出百万重金,悬赏让大模型表现差劲的任务
2022-07-05 18:32:00 【智源社区】
模型越大、表现越差反而能获奖?
奖金总计25万美金(折合人民币167万)?
这样“离谱”的事情还真就发生了,一个名叫Inverse Scaling Prize(反规模效应奖)的比赛在推特上引发热议。
该比赛由纽约大学的7位研究人员共同举办。
发起人Ethan Perez表示,本次比赛的主要目的,是希望能找到哪些任务会让大模型表现出反规模效应,从而找出当下大模型预训练中存在的一些问题。
现在,该比赛正在接收投稿中,第一轮投稿将截止到2022年8月27日。
比赛动机
人们似乎默认,随着语言模型越来越大,运行效果也会越来越好。
然而,大型语言模型并非没有缺陷,例如种族、性别和宗教偏见问题,以及产生一些模糊的错误信息等。
规模效应表明,随着参数数量、使用的计算量和数据集大小的增加,语言模型会变得更好(就测试损失和下游性能而言)。
我们假设有些任务的趋势是相反的:随着语言模型的测试损失的提高,任务性能变得单调、效果变得糟糕,我们将这种现象称为反规模效应,与规模效应相反。
本次比赛旨在寻找更多的反规模效应任务,分析哪些类型的任务容易表现出反规模效应,尤其是那些对安全性要求高的任务。
同时,反规模效应任务还将有助于研究当前语言模型预训练和规模范式中潜在的问题。
随着语言模型越来越多地应用于现实世界的应用程序,这项研究的现实意义也在增强。
对反规模效应任务的收集,将有助于降低大型语言模型带来不良后果的风险,并预防伤害到现实用户。
网友争议
但针对这项比赛,有些网友提出了不同的看法:
我认为这是一种误导。因为它假设模型是静态的,并且在经过预训练后停止。
这更多的是一个在参数更多的标准语料库上进行预训练的问题,而不是模型大小的问题。
软件工程师James对该观点表示赞同:
是的,这整件事都是骗局。任何小型模型可以学习的东西,大型模型也可以。
小模型的偏差更大,因此“热狗不是热狗”在小模型中可能被识别为100%对的,而当大模型认识到可以将蛋糕制作成类似于热狗时,准确率会下降到 98%。
James甚至还进一步提出了“阴谋论”的看法:
也许这整件事就是一个骗局——让人们努力干活,并且展示遇到棘手任务时的训练数据,该经验会被大型模型所吸收,大型模型最终会更好。
因此他们不需要给奖金,还会得到一个更好的大型模型。
对此,发起人Ethan Perez在评论里这样写道:
澄清一下,该奖项的重点是寻找会导致反规模效应的语言模型预训练中,从未或很少见过的类别。
这只是使用大型模型的一种方法。还有许多其他能导致反规模效应的设置,没有涵盖在我们的奖项里。
边栏推荐
- Electron installation problems
- 【在優麒麟上使用Electron開發桌面應】
- SAP 特征 特性 说明
- @Extension、@SPI注解原理
- FCN: Fully Convolutional Networks for Semantic Segmentation
- 吳恩達團隊2022機器學習課程,來啦
- 第十一届中国云计算标准和应用大会 | 华云数据成为全国信标委云计算标准工作组云迁移专题组副组长单位副组长单位
- RPC协议详解
- 【HCIA-cloud】【1】云计算的定义、什么是云计算、云计算的架构与技术说明、华为云计算产品、华为内存DDR配置工具说明
- 第十一届中国云计算标准和应用大会 | 云计算国家标准及白皮书系列发布 华云数据全面参与编制
猜你喜欢
【Autosar 十四 启动流程详解】
Various pits of vs2017 QT
websocket 工具的使用
Vulnhub's darkhole_ two
FCN: Fully Convolutional Networks for Semantic Segmentation
ConvMAE(2022-05)
About statistical power
Fix vulnerability - mysql, ES
Introduction to the development function of Hanlin Youshang system of Hansheng Youpin app
第十一届中国云计算标准和应用大会 | 华云数据成为全国信标委云计算标准工作组云迁移专题组副组长单位副组长单位
随机推荐
【HCIA-cloud】【1】云计算的定义、什么是云计算、云计算的架构与技术说明、华为云计算产品、华为内存DDR配置工具说明
FCN: Fully Convolutional Networks for Semantic Segmentation
记录Pytorch中的eval()和no_grad()
About Statistical Power(统计功效)
Check namespaces and classes
音视频包的pts,dts,duration的由来.
小程序 修改样式 ( placeholder、checkbox的样式)
Electron installation problems
[paddlepaddle] paddedetection face recognition custom data set
How to choose the most formal and safe external futures platform?
7-2 keep the linked list in order
websocket 工具的使用
Matlab built-in function how different colors, matlab subsection function different colors drawing
案例分享|金融业数据运营运维一体化建设
第十一届中国云计算标准和应用大会 | 云计算国家标准及白皮书系列发布 华云数据全面参与编制
7-1 链表也简单fina
About Estimation with Cross-Validation
《ClickHouse原理解析与应用实践》读书笔记(5)
如何获取飞机穿过雷达两端的坐标
Record eval() and no in pytoch_ grad()