当前位置:网站首页>高数有多难?AI 卷到数学圈,高数考试正确率 81%!
高数有多难?AI 卷到数学圈,高数考试正确率 81%!
2022-07-02 22:10:00 【AI科技大本营】
整理 | 禾木木
出品 | AI科技大本营(ID:rgznai100)
OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%,妥妥的MIT本科生水平。课程范围从初级微积分到微分方程、概率论、线性代数都有,题目形式除了计算、甚至还有画图。
高数是多少理科生的噩梦?小编当时就是一个高数很差的人
那让 AI 做一道数学题有多难呢?又何况是高数呢?
昨天,看到一则这样的热搜:
是不是更难以接受了?!!!
多年来,科学家一直尝试让 AI 机器人挑战数学考试,但连年不及格,甚至低到20多分。因此,科学家们普遍认为人工智能无法挑战高数。然而近日,麻省理工的科学家基于 OpenAI Codex 预训练模型在高数上通过 few-shot learning 的正确率达到了81%!相关研究已经被 ArXiv 收录。课程范围从初级微积分到微分方程、概率论、线性代数都有,题目形式除了计算、甚至还有画图。
语言模型 Minerva
研究者发现,让 AI 解决数学问题存在多种方案。
首先,利用最新的 GPT-3 语言模型通过文本预训练使用小样本学习仅能达到 18.8% 的正确率;其次研究者尝试使用小样本学习和最新的思维链提示,正确率上升到了 30.8%;最后,研究者对代码进行微调,使用 Codex 进行少量学习的方式,让 AI 挑战麻省理工大学学院六门数学课程中的 210 道问题,正确率提升到了 81.1% 。
研究团队的解决思路是先在文本上做预训练,再用代码进行微调,把数学问题转换成等价的变成问题,通过让 AI 自动生成补充提干的上下文,将题目自动生成适合模型运行的文本后,再生成对应的代码并运行,最终解决数学问题。研究团队下一步打算把这项技术扩展到更多课程,并考虑实际应用到教学中。
在提交的这篇论文中,我们了解到他们推出了语言模型 Minerva,该模型能够解决数学和科学问题,让模型一步一步来。通过收集与定量推理问题相关的训练数据、大规模训练模型,以及使用先进的推理技术,该研究在各种较难的定量推理任务上取得了显著的性能提升。
Minerva 通过生成解决方案来解决问题,包括数值计算、符号操作,而不需要依赖计算器等外部工具。Minerva 可以将自然语言和数学符号进行结合来解析和回答数学问题。
此外,Minerva 还结合了多种技术,包括小样本提示、思维链、暂存器提示以及多数投票原则,从而在 STEM 推理任务上实现 SOTA 性能。
Minerva 不仅可以解决代数问题,还能解决物理、数论、几何、生物、化学、天文学等众多问题。
下面是 Minerva 解决几何问题:
应用题上,可以列出方程式:
甚至还可以推导证明。
为了测试 Minerva 的定量推理能力,研究者们在不同的 STEM 基准上进行了评估,覆盖从小学水平的问题到研究生水平的课程。研究者们还在 OCWCourses 上评估了 Minerva,涵盖了从 MIT OpenCourseWare 中收集的固态化学、天文学、微分方程和狭义相对论等各种 STEM 主题。
结果表明,在所有数据集的评估后,5400亿参数的 Minerva 在各种测试集中达到 SOTA,有时甚至是大幅提升。
不过,Minerva 也犯了很多错误。
为了更好地确认模型可以改进的领域,研究者们分析了模型出错的问题样本,发现大多数错误很容易解释。结果表明,大约一半是计算错误,另一半是推理误差,原因是解决步骤没有遵循逻辑思考链。
同时,Minerva 也有可能得出正确的最终答案,但推理依然错误。分析结果显示,这种概率相对较低,Minerva 62B 在 MATH 数据集上的平均低于 8%。
结语
AI 不仅在技术圈有着不错的发展,在不同的领域也大展拳脚,前有让 AI 写高考作文,用 AI 修复解放军进驻香港的珍贵画面。
不仅有学生们盼着有一天能用 AI 做作业,还有老师们也期望用 AI 出卷子。
也有网友表示,想要挑战他。
你怎么看呢?
参考链接:
https://s.weibo.com/weibo/%2523AI%25E8%2580%2583%25E9%25AB%2598%25E6%2595%25B0%25E4%25BB%2585%25E5%25BE%259781%25E5%2588%2586%2523?topnav=1&wvr=6&Refer=top_hot&sudaref=weibo.com
https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html
往期回顾
分享
点收藏
点点赞
点在看
边栏推荐
- Start from the bottom structure to learn the customization and testing of FPGA --- Xilinx ROM IP
- Realize the linkage between bottomnavigationview and navigation
- 設置單擊右鍵可以選擇用VS Code打開文件
- China Academy of information technology, Tsinghua University, Tencent security, cloud native security, industry university research and use strong alliance!
- Static file display problem
- Niuke network: maximum submatrix
- Set right click to select vs code to open the file
- 力扣刷题(2022-6-28)
- Chow-Liu Tree
- Go language sqlx library operation SQLite3 database addition, deletion, modification and query
猜你喜欢
Learning records of data analysis (II) -- simple use of response surface method and design expert
ADC of stm32
C#中Linq用法汇集
The concepts of terminal voltage, phase voltage and line voltage in FOC vector control and BLDC control are still unclear
Lambda表达式:一篇文章带你通透
Is 408 not fragrant? The number of universities taking the 408 examination this year has basically not increased!
[favorite poems] OK, song
golang入门:for...range修改切片中元素的值的另类方法
Odoo13 build a hospital HRP environment (detailed steps)
为什么RTOS系统要使用MPU?
随机推荐
BBR 遭遇 CUBIC
【Redis笔记】压缩列表(ziplist)
海思3559万能平台搭建:在截获的YUV图像上画框
Strictly abide by the construction period and ensure the quality, this AI data annotation company has done it!
静态文件显示问题
golang入门:for...range修改切片中元素的值的另类方法
Realize the linkage between bottomnavigationview and navigation
在SOUI里使用真窗口时使用SOUI的滚动条
Freshman learning sharing
“一个优秀程序员可抵五个普通程序员!”
Lc173. Binary search tree iterator
Value sequence < detailed explanation of daily question >
P7072 [csp-j2020] live broadcast Award
Lambda expression: an article takes you through
Jericho's thimble reaction when directly touching the prototype is abnormal [chapter]
抖音实战~点赞数量弹框
Ping domain name error unknown host, NSLOOKUP / system d-resolve can be resolved normally, how to Ping the public network address?
psnr,ssim,rmse三个指标的定量分析
Motivation du Protocole de chiffrement avancé AES
程序员版本的八荣八耻~