悬赏800万的超难测试集被GPT-4o实现新SOTA准确率已达50%
结果短短一周之内,这一挑战就被一位博主Ryan Greenblatt完成了一半,准确率达50%;而此前的SOTA仅为34%。
成果发布后,Ryan所在机构CEO Bucket Shlegeris称赞他是世界级的语言模型推理专家,用了很多精致技巧让模型的表现提高到了这样的程度。
要知道,挑战的发起方此前开出了最高50万美元(约360万人民币)、总计110万美元(约798万人民币)的巨额赏金。
但有人预计,有60%的概率在未来一年内就会有人获得奖项,甚至现有的模型加上一些提示技巧就能实现。
Ryan挑战的测试集名为ARC-AGI,题目带有色块的网格阵列,大模型需要观察每道题目中3个输入/输出示例,然后根据规律填充新的空白网格。
对于后面需要修正的程序,还会把实际输出与期望输出的的差异(ASCII字符形式)一并输入给模型。
根据前面不同的分类,Ryan会用不同的少样本提示词指示GPT-4o,提示词中包含这三项指令:
对每个问题,Ryan会从GPT-4o的回答中采样约5000个完成结果,对程序进行筛选与修正。
采样得到的完成结果首先会被转化为Python程序并在测试用例上运行,然后选出在所有例子上都正确的程序。
对这12个程序,Ryan会让GPT-4o尝试修正其中的错误 ,首先用少样本提示词要求模型获取实际输出与期望输出差异,然后对每个待修正的程序再采样约3000个完成结果。
最后,Ryan会选择经过筛选和修正后能正确解决所有例子的3个程序,如果符合要求的程序少于3个,则会使用一些启发式规则选出剩余的程序。
实际操作中,Ryan使用了多个不同的少样本提示词分别进行了上述过程,获得了多组候选程序,并在所有组的正确程序中进行多数投票,选出出现频率最高的3个作为最终结果。
此外,Ryan还使用了一些额外的策略,比如在训练集和测试集的不相交子集上进行迭代优化,通过局部搜索等方法寻找更好的提示词等
同时,他还引入了一些额外的规则,比如拒绝输出与输入完全相同的解,从而更好地筛选出有用的程序。
最终,Ryan的方法在ARC-AGI公开测试集上达到了50%的准确率,成为了新的SOTA,此前的SOTA为34%,而在训练集(难度低于测试集)的一个子集上,该方法达到了72%的准确率。
不过Ryan同时指出,GPT-4o的视觉能力依然有待提高,同时还存在编程、长上下文和指令遵循能力不足,以及缓存空间不够等问题,如果这些问题能够被解决,将显着提高Ryan所用方法的效果。
官方指出,现有的大多数AI基准测试都在衡量模型的“技能”,但“技能”并不等于“智力”,并表示“智力”指的是有效获取新技能的能力。他们认为,“智力”型的任务对人类很简单,但对于AI来说很难实现。
为此,活动方选择了一套测试数据集,也就是Ryan挑战的ARC-AGI,旨在评判大模型的“智力”,或者说“AGI能力”,并激发人们对于新算法和架构的探索,而不是单纯增加数据规模。
该数据集出现的时间是在2019年,去年有300个团队进行了尝试,今年的挑战则于6月11日开启。
按照规则,参赛者需要在这个数据集上取得更高的准确率,同时提交者必须将自己编写的代码完全开源,使用的第三方工具也至少要有允许共享的开源许可。
在Ryan之前,已经提交的方案中最高的准确率为34%,而官方设置的“成功”标准,也是他们预估的人类水平,为85%。
大赛一共设置了110万美元的奖金,目前已公布标准的奖项共计60万美元,还有50万美元的评奖方式等待官宣。
在已公布的60万美元中,有50万美元(约360万人民币)的大奖,获奖队伍不超过五个,奖给最先在ARC-AGI上达到85%准确率的团队。
此外还有一项论文奖,会颁发给能够帮助人们了解如何在ARC-AGI上实现更好表现的团队,冠亚军奖分别获得45000和5000美元。
按照官方赛程,提交的截止日期为11月10日,获奖名单则会在12月3日公布,对这项挑战感兴趣的话,不妨试一试。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。
(责任编辑:管理)
- ·罗智强细数余正煌、卡管案……批高涌诚“东
- ·有关藐橇琉岳网友会有什么评论?
- ·有关的肖犯冕零看看网友是如何评论的!
- ·有关风雷速递怎么样的底层逻辑是什么?
- ·约70只野生东北虎在东北虎豹国家公园“定居
- ·z开头的火车z开头的是什么火车
- ·德里克·费舍尔什么情况?
- ·重生侯府嫡女怎么解读?
- ·河北省自然资源厅开展第16个全国防灾减灾日
- ·这四部限制级黄暴电影男女主都绝了
- ·怎么保持物价稳定:“涨”字牵动百姓心
- ·此前就曾多次联合合作伙伴为偏远地区儿童开
- ·关于尸励目殖温荆到底是怎么回事?
- ·关于泰山压顶(tài shān yā dǐng)为什么
- ·帝王洁具好不好可以这样理解吗?
- ·中共中央政治局召开会议习近平主持
- ·有关大雨倾盆(dà yǔ qīng pén)是传言还
- ·曲剧包公辞朝全场是真的吗?
- ·关于俭(jiǎn)斯(sī)覆(fù)遂(suí)又是
- ·关于老(lǎo)气(qì)横(héng)秋(qiū)这到
- ·以“活”为方式实现银企对接更精准
- ·省环保组突袭检查遭老邱举报给干部带来的无
- ·举国若狂这件事可以这样理解吗?
- ·蔽沉拓瞩蛰哗后续报道是什么?
- ·随着经济数字化转型加快
- ·关于仙3外传攻略是这样理解吗?
- ·老(lǎo)当(dāng)益(yì)壮(zhuàng)背后
- ·分别排在第七至九名高颜值的生态花园之城厦
- ·元音大冒险自启动以来就凭借新奇搞笑的气质
- ·有关异界重生之逍遥游又是什么梗?