[问卦] 通用人工智能(AGI)是不是快了?

楼主: tsubasawolfy (悠久の翼)   2024-12-21 07:25:19
刚刚看完OPEN AI憋了12天的压箱宝影片
https://youtu.be/SKBG1sqdyIU
提到已经完成最新的 O3推理模型
写程式方面辗压现在开放给大众用的最强的O1,
而且分数(2727)还比画面上白衣服那位(2500)跟它们团队首席科学家高XD
https://i.imgur.com/oV8surS.png
给他做美国数学奥林匹亚测试是96.7分,剩下的3.3分是因为有一题总是会算错
博士等级的科学问题看起来是没领先O1太多
https://i.imgur.com/CgnjplM.png
研究型的数学问题,专门给那些资深数学家去探索的,没发表过的资料
O3达到25.2%,其他类模型只有2%正确率
https://i.imgur.com/AYcARqi.png
不过最惊讶的是请来外部团体测试AGI的分数
ARC-AGI用像这种图去测试AI是不是有达到人类推理水准
https://i.imgur.com/jr1rU9j.png
这题比较简单,就是要把缺的地方填上变成完整正方形
https://i.imgur.com/Jl7fhOS.png
这题难一点,要去算各方形内的点跟辨认颜色
然后在相对应的方形外用该颜色跟数量当宽度去把方形框起来
现在的O1给他足够时间也只能到32%,O3在低计算环境下有75.7%
如果要O3想久一点的话可以到87.5%
重点是跨过85%这个门槛就算相当于有人类的推理能力
https://i.imgur.com/Gx77oLi.png
好奇去找了一下这测验对人类难度有多少
2024年纽约大学找了1729人测试,正确率落在73.3%-77.2%
但是98.7%的问题至少有一位普罗大众可以解完
不过O3目前还没要释出,OPEN AI还要帮他加上各种安全装置
在各种安全装置下能不能达到基本AGI的水准就是大问号了
人类想创造出接近人类但是又不能超过人类的心理真是奇妙

Links booklink

Contact Us: admin [ a t ] ucptt.com