LLM-Agent拾慧

创建于 2025-07-20 更新于 2025-07-20
660 字
3 分钟

打算记录一些看过的 LLM / Agent 相关博客、论文等中有启发性或有趣的观点。

The Second Half

应该算是非常有名的一篇了,Kimi K2 Tech Blog 里也引了,提出了「下半场」的概念。姚顺雨在 25 年 4 月发的博客(其实我之前都不知道他,虽然很多工作都听过),文章本身不长,也非常浅显易懂。

最关键的就是 RL 的胜利,它终于泛化了。不再需要思考如何解决问题了,只需要定义好问题,然后交给 RL 就可以了。可是为什么之前 RL 没有跑通呢?

以前定义任务是相对简单的,只需要从人类能做到的各种事情中随便挑一件就可以了,相比之下方法是困难的,例如 ImageNet 其实就是图片分类,但打榜也用了很多年。这也导致之前人们更关注模型和方法,而没那么在意评测。

RL 的三板斧:环境、算法、先验。从前人们都在算法上死磕,OpenAI 找到了相对正确的路:先是把环境搞定了,然后发现先验知识才是最终的钥匙。

提出了一个配方(Recipe)的概念,我姑且理解为套路或者组合拳?即面对各种问题都能用同一套手段解决,在这个语境下大概就是 LLM 的这一整套从预训练到后训练乃至 Agent 的方法论。这样工业化的方法将会碾碎一切,如此一来,定制的方法不再有意义了,新的 benchmark 也会很快被屠榜,我们需要重新思考如何评测。

为什么 LLM 已经如此强大,但我们的现实生活却没有很大改变呢?或许是因为现有的评测和现实是没有对齐的,AI 徒有智能,但无效用(utility)。现实世界中的事情并不像评测中那样是独立连续的,他们可能是交错的、异步的……

尽管「下半场」的说法有待商榷,但我觉得这篇文章确实是读的酣畅淋漓,醍醐灌顶,心潮澎湃。

今天和一位朋友吃饭也聊到现在这波浪潮来得很大,但好像基本只在编程领域看到了实质性的生产力提升。突然有一种站在了时代的风口浪尖上的感觉,当三年后我再次毕业,又会是怎样一副光景呢?还是说现在我的这种感觉其实是一种幻觉?