LLM-Agent拾慧 - flwfdd's space

打算记录一些看过的 LLM / Agent 相关博客、论文等中有启发性或有趣的观点。

The Second Half

应该算是非常有名的一篇了，Kimi K2 Tech Blog 里也引了，提出了「下半场」的概念。姚顺雨在 25 年 4 月发的博客（其实我之前都不知道他，虽然很多工作都听过），文章本身不长，也非常浅显易懂。

最关键的就是 RL 的胜利，它终于泛化了。不再需要思考如何解决问题了，只需要定义好问题，然后交给 RL 就可以了。可是为什么之前 RL 没有跑通呢？

以前定义任务是相对简单的，只需要从人类能做到的各种事情中随便挑一件就可以了，相比之下方法是困难的，例如 ImageNet 其实就是图片分类，但打榜也用了很多年。这也导致之前人们更关注模型和方法，而没那么在意评测。

RL 的三板斧：环境、算法、先验。从前人们都在算法上死磕，OpenAI 找到了相对正确的路：先是把环境搞定了，然后发现先验知识才是最终的钥匙。

提出了一个配方（Recipe）的概念，我姑且理解为套路或者组合拳？即面对各种问题都能用同一套手段解决，在这个语境下大概就是 LLM 的这一整套从预训练到后训练乃至 Agent 的方法论。这样工业化的方法将会碾碎一切，如此一来，定制的方法不再有意义了，新的 benchmark 也会很快被屠榜，我们需要重新思考如何评测。

为什么 LLM 已经如此强大，但我们的现实生活却没有很大改变呢？或许是因为现有的评测和现实是没有对齐的，AI 徒有智能，但无效用（utility）。现实世界中的事情并不像评测中那样是独立连续的，他们可能是交错的、异步的……

尽管「下半场」的说法有待商榷，但我觉得这篇文章确实是读的酣畅淋漓，醍醐灌顶，心潮澎湃。

今天和一位朋友吃饭也聊到现在这波浪潮来得很大，但好像基本只在编程领域看到了实质性的生产力提升。突然有一种站在了时代的风口浪尖上的感觉，当三年后我再次毕业，又会是怎样一副光景呢？还是说现在我的这种感觉其实是一种幻觉？