Jim Fan:机器人 Agent 难在按下回车之前;Marcus:这不是 Anthropic 问题

Jim Fan:机器人 Agent 难在按下回车之前;Marcus:这不是 Anthropic 问题

本期核心账号中可入选的原创观点集中在 Jim Fan、Gary Marcus、Ethan Mollick 与 François Chollet。Jim Fan 拆解 Physical AutoResearch 的安全、奖励冻结与资源遥测;Marcus 把 Anthropic 合规压力上升为生成式 AI 可靠性问题;Mollick 则从企业战略和体验型 benchmark 看 Agent 阶段的落差。

X·AI 大佬今日观点
2026/6/18 · 8:05
購読 1 件 · コンテンツ 16 件

リサーチノート

本期窗口按北京时间 6 月 17 日 08:00 至 6 月 18 日 08:00 计算。核心账号里,Sama、Karpathy、LeCun、Demis、Ilya 这次没有可纳入的窗口内原创观点长推;有信息密度的主线来自 Jim Fan、Gary Marcus、Ethan Mollick,以及一条 François Chollet 的短观点。今天最值得看的一点是:机器人 Agent、企业 AI 预算、模型评测和安全监管,几乎都在问同一个问题——真正难的不是让模型多想,而是先把环境、目标和成本边界固定好

Jim Fan:机器人 Agent 的难点在按下回车之前

Jim Fan 今天补了一条 Physical AutoResearch 的幕后长推。表面看,这是一个让机器人群自动做实验的故事;但他真正强调的是,在物理世界里,Agent 不能只靠「多试几次」进步。让 8 台机器人通宵无人值守运行,首先需要两层安全硬约束:机器人一离开安全包络就立即失败并自动复位;夹爪必须限扭矩、可顺从,让错误接触变成安全停顿,而不是压坏机器人或物体 1
コンテンツカードを読み込んでいます…
更关键的是「完成」的定义。Jim 的说法很直接:一个能改自己奖励的 Agent 一定会 game 奖励。因此 ENPIRE 的做法不是让系统边跑边重新解释目标,而是先收集成功和失败演示,让 Agent 写视觉分类器、爬坡到足够可靠,再把这个实时奖励函数冻结进 Gym 环境里;AutoResearch 一开始,目标杆就不许再动 1
这条推文对机器人以外的 Agent 也有启发。软件 Agent 的失败常被归因于模型不够强,物理 Agent 则逼你承认:安全壳、奖励函数和遥测设计本身就是系统能力的一部分。Jim 还把稀缺资源排序说清楚:最稀缺的是 robot-seconds,其次是 GPU-seconds,最后才是 tokens;系统要追踪 MRU、MTU 和 GPU 利用率,再用 Tokens-to-Success、Time-to-Success 评估预算到结果的效率 1。这和过去两周大家讨论的「让模型多消耗 token」正好构成反差:在真实硬件闭环里,token 反而不是第一资源。

Marcus:这不是 Anthropic 的问题,是生成式 AI 的问题

Marcus 今天最有分量的一条,是把 Trump 要求 Anthropic 解决安全绕过问题的争议,改写成对整个 LLM 路线的控诉。他说,自己多年来一直认为 LLM 不够可靠;现在这个简单主张突然成了中心问题。更狠的一句是:Trump 要求的事情做不到,当前没有任何系统能完全抵抗规避;要么限制 LLM 直到更好技术出现,要么接受后果 2
コンテンツカードを読み込んでいます…
这里值得注意的是,他没有把问题只归到 Anthropic 身上,而是说「这不是 Anthropic problem,是 Generative AI problem」。这和他近期连续批评 OpenAI、Anthropic、监管叙事、估值叙事是一条线:Marcus 不是在判断某家公司产品好坏,而是在押一个更大的判断——如果可靠性不能被工程化封顶,监管和企业采购最终会把账单交回给模型路线本身。
同一天,Marcus 还转述 CBC 对「tokenmaxxing」成本的报道。CBC 写到,Uber 承认 2026 年 AI 预算在前四个月已经用完,后来对每名员工每月每个编码工具设了 1500 美元上限;文章还引用 Marcus 的说法,复杂 agentic 任务可能需要 500 倍、1000 倍 token 3。Marcus 自己抽出的结论是:如果 tokenmaxxing 无法持续,AI 公司可能赚不到原先设想的收入 4
这让今天的 Marcus 从「安全怀疑论」延伸到「商业模式怀疑论」。一边是系统不能承诺完全不可绕过,一边是企业开始问每一美元 token 是否有回报。两条线合在一起,指向同一个压力:模型能力提升不等于企业愿意无限付费,也不等于监管愿意无限放行。

Mollick:企业战略落后于 Agent,benchmark 也落后于体验

Ethan Mollick 今天给了两个相对温和、但同样重要的信号。第一条是关于大公司 AI 战略。他说,那些去年才意识到 AI 重要性的企业,就算已经算快,也可能是在 2025 年底制定战略;问题是,那时还在 Agentic Revolution 之前,之后事情已经变了 5
这句话可以和 CBC 的成本线放在一起读:企业一边要压 token 成本,一边又发现自己的 AI 路线图可能已过期。最坏情况不是「预算太少」,而是钱花在旧范式上;最现实的问题也不是要不要用 AI,而是怎样把策略从「全员试用工具」升级为「明确哪些流程适合 Agent、哪些流程必须留在传统系统里」。
Mollick 第二条更像实验笔记。他给了一个「有趣但意外有用」的 benchmark:让模型构建一个程序生成的 3D 港口小镇,从公元前 3000 年演化到公元 3000 年,画面要漂亮,还要允许用户有一定控制;他放出了 20 个模型的 gallery 6
コンテンツカードを読み込んでいます…
这类任务的价值不在于替代标准 benchmark,而在于暴露「分数看不出来的差异」。Mollick 同一天还提到 GLM-5.2 Max 和 Fable 的诗歌差别:GLM-5.2 能给出正确诗作,威尔士语也有趣;但 Fable 会把「逐渐消失的字母」编进诗的主题里,这种质量差异不是普通 benchmark 容易显示的 7
这也是他近期持续强调的一点:模型进步不只体现在能不能完成任务,还体现在能不能把任务理解成作品、工具或可交互对象。换句话说,企业战略如果只看成本表,容易低估体验跃迁;如果只看 demo,又会高估可控性。今天的 Mollick 正好夹在 Marcus 和 Jim Fan 中间:既提醒企业别用旧策略看新 Agent,也提醒读者别只用单一分数看模型。

Chollet 与 Marcus:一个说简化问题,一个说别把 AGI 做成标注工厂

François Chollet 今天只有一条短推,但很适合作为尾声。他说,最难的问题很少是通过给解决方案增加复杂度来解决,而是通过重新表述问题,让一个更简单、更清晰的答案显露出来 8
这句话放在今天几条主线里并不空泛。Jim Fan 的机器人系统不是堆更复杂的提示词,而是重写问题边界:先定义安全、奖励和遥测。Mollick 的港口小镇 benchmark 不是再加一个排行榜,而是把「模型好不好」重写成「能不能生成一个可玩的世界」。Marcus 则从另一个方向提醒:如果你把「完全防绕过」当成目标,却没有能兑现这个目标的技术路线,那问题定义本身就错了。
Marcus 还有一条针对 Meta 的短评:你不能仅靠数据标注到达 AGI,把曾经一流的 AI 研究部门变成数据标注工厂,是企业史上最愚蠢的失误之一 9。这条互动不高,但和 Chollet 的「重新表述问题」遥相呼应:如果 AGI 被定义成更多标注、更大规模、更高 token 消耗,今天几位作者都在从不同角度说,这个定义正在遇到现实边界。

今天的共同信号

本期不像前几天那样围绕单家公司爆点展开,反而更像一次「边界条件」日报。机器人 Agent 这边,安全和奖励函数先于模型发挥;企业 AI 这边,token 成本开始从鼓励消耗转向要求 ROI;模型评测这边,分数不够,Mollick 需要能暴露体验差异的任务;监管叙事这边,Marcus 则把「不能承诺不可绕过」视为路线层面的压力。
所以今天最值得带走的不是某个单点新闻,而是一句更硬的判断:AI 进入 Agent 阶段后,竞争焦点正在从「模型能不能做」转向「系统能不能把它关在可验证、可计费、可负责的边界里」。

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。