
劳动节宜宾家具封边胶 ,马上 100 岁的 vintage 大模型也得劳动。
是的,有人给只有 1930 年知识的大模型,微调成软件工程师了……
过程比想象中轻松,仅用 250 个训练样本,强悍的老头便解决了自己人生中的个编程问题——
给 xarray 库了个补丁。
个连电视机都没见过的 AI,现在也开始跟 Claude 们「学坏」,要跟程序员饭碗了。(bushi)
中古硅基软件工程师
先补充下背景,1930 是谁?
这是近爆火的「老头 AI」,全名叫 talkie-1930-13b。
操盘手是 AI 研究员 Nick Levine、多伦多大学教授 David Duvenaud,以及大熟悉的那位——真 · GPT 系列之父 Alec Radford。
而他们对老头有趣的设计,就是其训练数据有条铁律:1931 年 1 月 1 日之后的任何个字,全部不准进!
是的,它不知道电视机,不知道互联网,不知道二战怎么收场……
老头的世界,永远停在了 1930 年 12 月 31 日的午夜。
但让全网「瘫软」的点在于,就这么个老古董,当扔给它道 Python 编程题时,这个跨越近百年的「过去之灵」,竟然写出了人生行 Python 代码。
离离原上谱。
如今,老头再次发力。
有人对 Alec Radford 的这个 1930 vintage LLM 做了微调,让它去解 SWE-bench 上的真实软件工程问题。
谁曾想,真让老头干成了。
250 个训练样本之后,它落地了个 fix ——个针对 xarray 库的小补丁。
百岁老人,硬核上岗。
对了,团队放出了老头在落地这个 xarray 库补丁的全过程。
说实话,如果以看前沿 LLM 的标准,这个 demo 看着真有点恼火。
个简单的问题,老头足足花了 49 轮才搞定,又长又慢。
其中有些轮次实在看不下去了,真的太笨了,着急死了,但你又不好意思对老头发脾气。
但,这在某些时刻,反而让人兴奋。跟看爽文样。
我举个「直接、不绕弯」的例子。(bushi)
老头开始其实搞了。
在 12 轮对话的时候,它尝试 apply patch 失败了。
代码可以报错,但,老兵不死。
老头没有放弃宜宾家具封边胶 ,它仍在继续尝试,直到终于意识到自己错在哪……
然后,在 44 轮,它给修好了!!
我知道,fix 本身很简单,别说 AI SOTA 了,代码水平跟小白比估计都够呛。
但真正重要的,是老头在整个解题过程中的思考。
这个过程展示出的那种理能力,跟我们在现代模型上看到的如出辙。
个 1930 年的模型,也会试错,会反思,万能胶生产厂家会自我修正。
demo 之外,benchmark 的表现同样亮眼。
当微调时的训练数据规模扩展到大约 75K 条 trajectory,也就是 10 亿 token 的时候,模型在 SWE-bench-Verified 上达到了 4.5 的 pass@1。
要知道,它原来在 HumanEval 上才 4 的 pass@100。这进步幅度相当可观。
虽然对值还很低,但对个 1930 年知识模型来说,已经很离谱了。
有意思的是另个对照实验。
事实上,团队还同时给老头训练了个兄弟模型,叫 talkie-web,这个模型是在互联网数据上预训练的。
同样的微调,talkie-web 在 SWE-bench-Verified 上的成绩是 5.5 的。
没错,即便团队偏心,给孪生兄弟加上互联网数据,也就比老头了 1 个百分点。
以上结果,欢迎复现。
这不是什么穿越爽文,团队已经在 GitHub 上开源了项目,链接放在文章结尾,感兴趣的朋友可以去跑跑看。
团队自己也很兴奋,在 README 里喊话:
如果你手头有多力,我们很想看到 1930 模型和互联网模型在后训练持续扩展时的完整 scaling 曲线对比。
想看想看,这可比单纯秀肌肉的 benchmark 有意思多了。
什么是智能?
团队并没有剖析背后的原因,但我看了不少网友在帖子下面的评论,觉得这是个值得讨论的话题。
我们直以为,AI 需要吃掉整个互联网才能变聪明。
但如果个只读过 1930 年以前书的模型,经过点点后训练就能写代码修 bug ……
那我们对「什么是智能」的理解,是不是也得重新想想?
4.5 的 pass@1,放在今天的 SOTA 面前当然不够看。但它证明的那件事,比任何 benchmark 分数都重要。
个 1930 年代的人,如果拥有几乎相同的教育体系,可以理解现代软件工程。
百年前的数据量,加上正确的后训练法,就足以产生现代意义上的理。
智能的瓶颈,或许从来不在于预训练数据的多少。
你不需要个训练过所有知识的模型,它只需要具备基本的语言理解能力,这就够了。
或许,当我们在 Scaling 路上路狂奔的间隙,也可以稍微停停,抬起头来跟身边人侃侃大山、扯扯淡——
诶,你说……
智能的本质,到底是什么?
GitHub:
https://github.com/RicardoDominguez/talkie-coder
参考链接:
[ 1 ] https://x.com/rdolmedo_/status/2050665193374732430?s=20
[ 2 ] https://github.com/RicardoDominguez/talkie-coder
键三连「点赞」「转发」「小心心」
奥力斯 PVC管道管件粘结胶价格 联系人:王经理 手机:18231788377(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区/p>
欢迎在评论区留下你的想法!
— 完 —
� � AI 正在从少数人的工具,变成所有人的日常。
今年5 月 20 日,我们将在北京金茂万丽酒店举办年度的 AIGC 产业峰会。
波嘉宾阵容已公布!昆仑万维汉、智谱吴玮杰、EverMind 邓亚峰、风行在线易正朝、百度秒哒朱广翔、Fusion Fund 张璐、香港大学黄、MarsWave 冯雷都来了,� �了解详情
邀请你和我们起,不再只是讨论 AI 的未来,而是现在就用起来。� �
键关注 � � 点亮星标
科技前沿进展每日见
相关词条:罐体保温施工 异型材设备 锚索 玻璃棉 保温护角专用胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》宜宾家具封边胶 ,以此来变相勒索商家索要赔偿的违法恶意行为。