当前位置:网站首页>AI表现越差,获得奖金越高?纽约大学博士拿出百万重金,悬赏让大模型表现差劲的任务
AI表现越差,获得奖金越高?纽约大学博士拿出百万重金,悬赏让大模型表现差劲的任务
2022-07-05 18:32:00 【智源社区】
模型越大、表现越差反而能获奖?
奖金总计25万美金(折合人民币167万)?
这样“离谱”的事情还真就发生了,一个名叫Inverse Scaling Prize(反规模效应奖)的比赛在推特上引发热议。

该比赛由纽约大学的7位研究人员共同举办。
发起人Ethan Perez表示,本次比赛的主要目的,是希望能找到哪些任务会让大模型表现出反规模效应,从而找出当下大模型预训练中存在的一些问题。
现在,该比赛正在接收投稿中,第一轮投稿将截止到2022年8月27日。
比赛动机
人们似乎默认,随着语言模型越来越大,运行效果也会越来越好。
然而,大型语言模型并非没有缺陷,例如种族、性别和宗教偏见问题,以及产生一些模糊的错误信息等。

规模效应表明,随着参数数量、使用的计算量和数据集大小的增加,语言模型会变得更好(就测试损失和下游性能而言)。
我们假设有些任务的趋势是相反的:随着语言模型的测试损失的提高,任务性能变得单调、效果变得糟糕,我们将这种现象称为反规模效应,与规模效应相反。
本次比赛旨在寻找更多的反规模效应任务,分析哪些类型的任务容易表现出反规模效应,尤其是那些对安全性要求高的任务。
同时,反规模效应任务还将有助于研究当前语言模型预训练和规模范式中潜在的问题。
随着语言模型越来越多地应用于现实世界的应用程序,这项研究的现实意义也在增强。
对反规模效应任务的收集,将有助于降低大型语言模型带来不良后果的风险,并预防伤害到现实用户。
网友争议
但针对这项比赛,有些网友提出了不同的看法:
我认为这是一种误导。因为它假设模型是静态的,并且在经过预训练后停止。
这更多的是一个在参数更多的标准语料库上进行预训练的问题,而不是模型大小的问题。

软件工程师James对该观点表示赞同:
是的,这整件事都是骗局。任何小型模型可以学习的东西,大型模型也可以。
小模型的偏差更大,因此“热狗不是热狗”在小模型中可能被识别为100%对的,而当大模型认识到可以将蛋糕制作成类似于热狗时,准确率会下降到 98%。

James甚至还进一步提出了“阴谋论”的看法:
也许这整件事就是一个骗局——让人们努力干活,并且展示遇到棘手任务时的训练数据,该经验会被大型模型所吸收,大型模型最终会更好。
因此他们不需要给奖金,还会得到一个更好的大型模型。

对此,发起人Ethan Perez在评论里这样写道:
澄清一下,该奖项的重点是寻找会导致反规模效应的语言模型预训练中,从未或很少见过的类别。
这只是使用大型模型的一种方法。还有许多其他能导致反规模效应的设置,没有涵盖在我们的奖项里。

边栏推荐
- The main thread anr exception is caused by too many binder development threads
- 分享:中兴 远航 30 pro root 解锁BL magisk ZTE 7532N 8040N 9041N 刷机 刷面具原厂刷机包 root方法下载
- Introduction to Resampling
- Nacos distributed transactions Seata * * install JDK on Linux, mysql5.7 start Nacos configure ideal call interface coordination (nanny level detail tutorial)
- [use electron to develop desktop on youqilin]
- 如何获取飞机穿过雷达两端的坐标
- How to obtain the coordinates of the aircraft passing through both ends of the radar
- 文章中的逻辑词
- Simulate the hundred prisoner problem
- 瞅一瞅JUC提供的限流工具Semaphore
猜你喜欢

分享:中兴 远航 30 pro root 解锁BL magisk ZTE 7532N 8040N 9041N 刷机 刷面具原厂刷机包 root方法下载

Record eval() and no in pytoch_ grad()

吳恩達團隊2022機器學習課程,來啦

Thoroughly understand why network i/o is blocked?

Le cours d'apprentissage de la machine 2022 de l'équipe Wunda arrive.

Use of websocket tool

SAP feature description

瀚升优品app翰林优商系统开发功能介绍

Pytorch yolov5 training custom data

案例分享|金融业数据运营运维一体化建设
随机推荐
[QNX hypervisor 2.2 user manual]6.3.2 configuring VM
New words new words new words new words [2]
金太阳开户安全吗?万一免5开户能办理吗?
Cronab log: how to record the output of my cron script
Use QT to traverse JSON documents and search sub objects
技术分享 | 常见接口协议解析
A2L file parsing based on CAN bus (3)
Use JMeter to record scripts and debug
Tupu software digital twin | visual management system based on BIM Technology
Xiaobai getting started with NAS - quick building private cloud tutorial series (I) [easy to understand]
彻底理解为什么网络 I/O 会被阻塞?
[PM2 details]
JDBC reads a large amount of data, resulting in memory overflow
The 11th China cloud computing standards and Applications Conference | China cloud data has become the deputy leader unit of the cloud migration special group of the cloud computing standards working
How to obtain the coordinates of the aircraft passing through both ends of the radar
[utiliser Electron pour développer le Bureau sur youkirin devrait]
How to automatically install pythn third-party libraries
The easycvr platform reports an error "ID cannot be empty" through the interface editing channel. What is the reason?
【在优麒麟上使用Electron开发桌面应】
Gimp 2.10 tutorial "suggestions collection"