Bye Bye 2024, Hi Hi 2025

弹指一挥间，2024 已经在身后，2025 正在向我们走来。这一年的感触还蛮多的，分享给大家。

LLM: 2024，也许是 AGI 的起点

2024 年的 LLM 圈可以说是好戏频出，以至于梳理起来都可能有点费劲。国内整体上感受是 Qwen 和 DeepSeek 基本打出品牌效应，逐渐比肩 LLaMA 甚至有取而代之的趋势，为各位大佬好朋友们点赞！也看到像 zhipu 和面壁等清华系公司在商业化领域频频出手，但真的会有很好的 ROI 吗？让我们拭目以待。也有很多后起之秀和逐渐掉队的公司，就不展开谈了哈哈。

国外圈子基本上就是御三家，OAI 手里总是给人很多牌的样子，但营销多了总是难免 miss 期待; G 家整体感觉还是有实力，Gemini-2-flash-exp 体感还是挺厉害的，测了在我们 VL-RewardBench 直接干到第一；Anthropic 的 Claude 3.5 一直是我的 PoE 首选，似乎 coding 也是一骑绝尘，但不知道能不能坚持到 next round 的军备竞赛，只能说看情况了。

技术路线来看，o1 的 test-time scaling 印证了之前的一个大的 intuition，即算力(tokens x depth x pre-training data) = 智能，在 depth 和 pre-train 都 fixed 的情况下找到合适的 scaling tokens （CoT、Self-consistency）是很自然的解。挑战所在我想应该也很直接，就像 Anthropic 创始人们说的，一开始是想直接上 RLHF 的，结果发现基模型不太行，所以得 scale up 再做。一个推论就是 RLHF 能够提供高效迭代的前提是 base model 找到 oracle 解的 recall 达到一定指标。

因此 o1 的做法我的猜测是靠找人标数据（看样子是 speech 转写出来的，要知道 whisper 也是 oai 搞的嘿嘿）后 SFT 确保能够有发散思考的能力，接上类似我们 Math-shepherd 的框架，在有明确的 reward 定义（verifiable reward such as Code / Math)，MCTS rollout 向 better answer 逼近，RL 来提升 model 利用 token computation 的效率，最后就能够得到 oai 放出来的那张美妙图片。

如果这个猜测成立，那么其实我们可以很快地把这个 framework 搬到任何一个（i) 能够收一定量数据（感觉 10K level ？）（(i) 有明确 verifiable reward 的场景。第一点很好做到，不反人类的情况下，只要商业意义足够大那么即使单条贵点也不成问题；第二点不简单，把 reward 泛化到不同场景，且要确保 proxy-reward 不会带来 hacking 等问题，还是很值得探索和研究的。

但总之，这条链路目前来在足够给力的计算资源和 infra 大爷们加持下，应该能够把大部分的 daily tasks 跑通，那也就意味着 AGI 的那一天（my definition of AGI: 能够在 75% 的任务上达到人类水平而不是一个任务100分做到75分，这种没意义）即将到来。桌面 agent (PC Agent）和 mobile agent 应该是确定性很强（但商业场景似乎还差验证？）已成共识，具身智能似乎也随着 OpenVLA/ Pi0 等拉开了大幕，那么 auto drive 行不行呢？我能做的不多，期待 AGI 来解放我的那一天。*

自媒体与科研

今年应该是转战 X 和小红书积极营业的一年，X 的粉丝达到了 1.3K，小红书接近 6K，印象里半年前说过 xhs 的商业价值，年底一看算上卖的小文档收入来到了 5K，也算是个小小红包。自媒体时代，你的号就是你的名片，有些时候搞不出大 paper 攒攒粉丝也是个不错的思路。一方面可以作为宣传阵地多多 PR 工作放大声量，另外一方面也有更新的需求反过来push自己进行一些输出（我的笔记真是自己写的 lol）。不过整体来看今年技术类写作因小红书平台限制趋向碎片化，考虑 25 年在 X 上用英文进行一些长篇的写作试试水，毕竟开了一年 1K+ 的蓝标会员，不好好利用还挺肉疼的。

科研方面自己的几个 paper 运气不错都中了，从 22 年的 M3IT，23 年的 VLFeedback， 24 年的 Multimodal ArXiv 以及 VL-RewardBench 算是给多模态 SFT、DPO 以及下一步的 reward model 的研究立了几个靶子和台子让大伙把玩。给每个 paper 都做了 webpage，现在看起来还挺项目像样的，准备开题就来个 alignment for LMMs，多么高大上啊（逃

但这么一圈走下来，我整体的感受是和 Cambrian-1 一致，现在的 LLM 太强以至于测指标的时候，很容易忽略了很多 vision perception 的局限性。这一点大家目前都是当做不知道，处在一个盯着 MMMU 和 DocVQA 拿起 SigLIP 就往里冲的状态。这样做不太对，VL-RewardBench 就发现其实大部分问题还是来自于 vision encoder，LLaVA 做不对的 4o 和 gemini 也不见得就能对了，怎么解耦好两个模态的学习并且有一个比较 real 的 benchmark 应该是很值得探索的。另外就是 gen & understanding unification，也难说真就能 1+1 > 2，目前看到的工作似乎都是互拉后腿。至于 hallucination 和 multimodal o1，在我看来其实都是 LLM-side 的问题（当然我们最新的 Temporal Reasoning 也是这么个事儿），属于别真把自己蒙在鼓里就行。应用侧比较看好的还是 GUI Agent，想象空间很大也很 fancy，但如何落地捏？期待大佬们的答案。

生活

生活方面今年收益很大的就是在上海生活的这段时间，进一步夯实感情的基础，也带来了心宽体胖的负面效果，需要新的一年强化锻炼了。

旅行今年应该是去了趟泰国开会，蛮好玩的也很便宜，在曼谷实现了一定程度的 711 自由和马杀鸡自由。芭提雅的海也是一绝，叠加性价比超高的水上项目，妥妥的爽到。年底和静静去了趟日本关西赏枫+购物，这次吸收了很多23年毕业旅行的经验，该预约的预约，并且重心放到京都上。会把永观堂+南禅寺的枯山水推荐给所有想要赏枫的朋友们，另外就是 shopping 还是得跟着女生一起，男生们的话就是便利店买点烧鸟回去打牌咯。另外感受蛮深的还是日本这波似乎真的走出来了，相比国内的餐饮略显萧条（出门吃饭基本不排大队了？），日本几个商圈都可以说是摩肩接踵了。

国内方面就是靠着参加舍友们婚礼的机会去到了陕西和福建，以及蹭人才论坛回了趟杭州和北京，西安变化挺大的，安康给人的感受也挺巴适，祝愿新婚的朋友们都能够早日进入下一个阶段；参加了几个人才论坛给我的感受是有些门在你读研的那一刻就已经关上了，再想要打开，要付出额外的巨大的努力，这种情况下我的选择就是不强求，可能就是命运给的指示吧，随缘。

今年的微信读书上显示只有 9 本看完的书，猛然发现今年似乎大部分的阅读靠着是纸质书完成。现在有点意识到纸书的好处，跳读很方便，也不再追求逐字逐句。要推荐的话马亲王的《食南之徒》应该还是有一席之地，剩下的会推荐《超越百岁》帮助建立更好的健康观（要高质量的生命体验而不是医疗手术，鱼油+坚果唯二有效的营养素）以及《以利为利》更明白这波房地产阵痛背后的根源所在。电影的话应该会是《好东西》。

理财方面搂了一眼和兄弟们的策略，24 年应该是 3.2%，被大 A 暴打。真要归因只能说最后一天吃了一计闷棍以及轮动有太多自己的 prior 尝试了一些奇怪的东西（不守纪律）。但好在跑了两年都是正收益并且流动性不错，作为解闷和感知市场水温的方式还是值得的。至于大头的资产配置，只能说相信海的那边风景更好了。

2025

新的一年，有这么些期待吧:

构建更大的个人品牌，希望能够跳出 paper 的评价体系有所成就，增强 visibility；
营业自媒体，目标 X 到 2K，xhs 破 w，会更加积极主动的破圈 + share thoughts，并且尝试新的转化；
到更多的地方看看，纸上得来终觉浅，还得亲身感受；
学业和情感都要应该要 probation talk 一下（x
保持身心健康，为下一波浪潮做好准备！

祝所有朋友们新年一切顺利~

Share on

X Facebook LinkedIn Bluesky

Lei Li

LLM: 2024，也许是 AGI 的起点

自媒体与科研

生活

2025

Share on