当前位置:网站首页>AI 考高数得分 81,网友:AI 模型也免不了“内卷”!
AI 考高数得分 81,网友:AI 模型也免不了“内卷”!
2022-07-03 12:40:00 【CSDN资讯】
整理 | 禾木木
出品 | AI科技大本营(ID:rgznai100)
高数是多少理科生的噩梦?小编当时就是一个高数很差的人
那让 AI 做一道数学题有多难呢?又何况是高数呢?
不久前,看到一则这样的热搜:
是不是更难以接受了?!!!
多年来,科学家一直尝试让 AI 机器人挑战数学考试,但连年不及格,甚至低到 20 多分。因此,科学家们普遍认为人工智能无法挑战高数。然而近日,麻省理工的科学家基于 OpenAI Codex 预训练模型在高数上通过 few-shot learning 的正确率达到了 81%!相关研究已经被 ArXiv 收录。课程范围从初级微积分到微分方程、概率论、线性代数都有,题目形式除了计算、甚至还有画图。
语言模型 Minerva
研究者发现,让 AI 解决数学问题存在多种方案。
首先,利用最新的 GPT-3 语言模型通过文本预训练使用小样本学习仅能达到 18.8% 的正确率;其次研究者尝试使用小样本学习和最新的思维链提示,正确率上升到了 30.8%;最后,研究者对代码进行微调,使用 Codex 进行少量学习的方式,让 AI 挑战麻省理工大学学院六门数学课程中的 210 道问题,正确率提升到了 81.1% 。
研究团队的解决思路是先在文本上做预训练,再用代码进行微调,把数学问题转换成等价的问题,通过让 AI 自动生成补充提干的上下文,将题目自动生成适合模型运行的文本后,再生成对应的代码并运行,最终解决数学问题。研究团队下一步打算把这项技术扩展到更多课程,并考虑实际应用到教学中。
在提交的这篇论文中,我们了解到他们推出了语言模型 Minerva,该模型能够解决数学和科学问题,让模型一步一步来。通过收集与定量推理问题相关的训练数据、大规模训练模型,以及使用先进的推理技术,该研究在各种较难的定量推理任务上取得了显著的性能提升。
Minerva 通过生成解决方案来解决问题,包括数值计算、符号操作,而不需要依赖计算器等外部工具。Minerva 可以将自然语言和数学符号进行结合来解析和回答数学问题。
此外,Minerva 还结合了多种技术,包括小样本提示、思维链、暂存器提示以及多数投票原则,从而在 STEM 推理任务上实现 SOTA 性能。
Minerva 不仅可以解决代数问题,还能解决物理、数论、几何、生物、化学、天文学等众多问题。
下面是 Minerva 解决几何问题:
应用题上,可以列出方程式:
甚至还可以推导证明。
为了测试 Minerva 的定量推理能力,研究者们在不同的 STEM 基准上进行了评估,覆盖从小学水平的问题到研究生水平的课程。研究者们还在 OCWCourses 上评估了 Minerva,涵盖了从 MIT OpenCourseWare 中收集的固态化学、天文学、微分方程和狭义相对论等各种 STEM 主题。
结果表明,在所有数据集的评估后,5400 亿参数的 Minerva 在各种测试集中达到 SOTA,有时甚至是大幅提升。
不过,Minerva 也犯了很多错误。
为了更好地确认模型可以改进的领域,研究者们分析了模型出错的问题样本,发现大多数错误很容易解释。结果表明,大约一半是计算错误,另一半是推理误差,原因是解决步骤没有遵循逻辑思考链。
同时,Minerva 也有可能得出正确的最终答案,但推理依然错误。分析结果显示,这种概率相对较低,Minerva 62B 在 MATH 数据集上的平均低于 8%。
结语
AI 不仅在技术圈有着不错的发展,在不同的领域也大展拳脚,前有让 AI 在 40 秒写 40 篇高考作文,用 AI 修复很多珍贵的照片、画面。
不仅有学生们盼着有一天能用 AI 做作业,还有老师们也期望用 AI 出卷子。
也有网友表示,想要挑战他。
你怎么看呢?
参考链接:
https://s.weibo.com/weibo/%2523AI%25E8%2580%2583%25E9%25AB%2598%25E6%2595%25B0%25E4%25BB%2585%25E5%25BE%259781%25E5%2588%2586%2523?topnav=1&wvr=6&Refer=top_hot&sudaref=weibo.com
https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html
— 推荐阅读 —
*7-Zip 遭抵制?呼吁者定下“三宗罪”:伪开源、不安全、作者来自俄罗斯!
*“放弃 GitHub ,时机已到”,软件自由保护协会怒批!
*微软封禁下,俄罗斯对盗版 Windows 的需求量“暴涨”!
边栏推荐
- SSH login server sends a reminder
- 2022-01-27 use liquibase to manage MySQL execution version
- Task6: using transformer for emotion analysis
- Sword finger offer 16 Integer power of numeric value
- 【数据库原理及应用教程(第4版|微课版)陈志泊】【第三章习题】
- Sword finger offer 11 Rotate the minimum number of the array
- Loan calculator my pressure is high
- R language uses the data function to obtain the sample datasets available in the current R environment: obtain all the sample datasets in the datasets package, obtain the datasets of all packages, and
- 已解决(机器学习中查看数据信息报错)AttributeError: target_names
- 剑指 Offer 14- I. 剪绳子
猜你喜欢
When we are doing flow batch integration, what are we doing?
Elk note 24 -- replace logstash consumption log with gohangout
对业务的一些思考
我的创作纪念日:五周年
Flink SQL knows why (7): haven't you even seen the ETL and group AGG scenarios that are most suitable for Flink SQL?
Mysql database basic operation - regular expression
stm32和电机开发(从mcu到架构设计)
人身变声器的原理
2022-02-14 incluxdb cluster write data writetoshard parsing
Tutoriel PowerPoint, comment enregistrer une présentation sous forme de vidéo dans Powerpoint?
随机推荐
Sitescms v3.0.2 release, upgrade jfinal and other dependencies
R语言使用data函数获取当前R环境可用的示例数据集:获取datasets包中的所有示例数据集、获取所有包的数据集、获取特定包的数据集
Sword finger offer 12 Path in matrix
C graphical tutorial (Fourth Edition)_ Chapter 20 asynchronous programming: examples - cases without asynchronous
C graphical tutorial (Fourth Edition)_ Chapter 15 interface: interfacesamplep271
February 14, 2022, incluxdb survey - mind map
Detailed explanation of multithreading
Flink SQL knows why (19): the transformation between table and datastream (with source code)
stm32和电机开发(从mcu到架构设计)
C graphical tutorial (Fourth Edition)_ Chapter 13 entrustment: what is entrustment? P238
35道MySQL面试必问题图解,这样也太好理解了吧
(first) the most complete way to become God of Flink SQL in history (full text 180000 words, 138 cases, 42 pictures)
SVN添加文件时的错误处理:…\conf\svnserve.conf:12: Option expected
[Database Principle and Application Tutorial (4th Edition | wechat Edition) Chen Zhibo] [Chapter IV exercises]
Fabric. JS three methods of changing pictures (including changing pictures in the group and caching)
PostgreSQL installation
Sword finger offer 16 Integer power of numeric value
Logback log framework
Setting up Oracle datagurd environment
Flink SQL knows why (12): is it difficult to join streams? (top)