Jim Fan：机器人 Agent 难在按下回车之前；Marcus：这不是 Anthropic 问题

本期窗口按北京时间 6 月 17 日 08:00 至 6 月 18 日 08:00 计算。核心账号里，Sama、Karpathy、LeCun、Demis、Ilya 这次没有可纳入的窗口内原创观点长推；有信息密度的主线来自 Jim Fan、Gary Marcus、Ethan Mollick，以及一条 François Chollet 的短观点。今天最值得看的一点是：机器人 Agent、企业 AI 预算、模型评测和安全监管，几乎都在问同一个问题——真正难的不是让模型多想，而是先把环境、目标和成本边界固定好。

Jim Fan：机器人 Agent 的难点在按下回车之前

Jim Fan 今天补了一条 Physical AutoResearch 的幕后长推。表面看，这是一个让机器人群自动做实验的故事；但他真正强调的是，在物理世界里，Agent 不能只靠「多试几次」进步。让 8 台机器人通宵无人值守运行，首先需要两层安全硬约束：机器人一离开安全包络就立即失败并自动复位；夹爪必须限扭矩、可顺从，让错误接触变成安全停顿，而不是压坏机器人或物体 1。

コンテンツカードを読み込んでいます…

更关键的是「完成」的定义。Jim 的说法很直接：一个能改自己奖励的 Agent 一定会 game 奖励。因此 ENPIRE 的做法不是让系统边跑边重新解释目标，而是先收集成功和失败演示，让 Agent 写视觉分类器、爬坡到足够可靠，再把这个实时奖励函数冻结进 Gym 环境里；AutoResearch 一开始，目标杆就不许再动 1。

这条推文对机器人以外的 Agent 也有启发。软件 Agent 的失败常被归因于模型不够强，物理 Agent 则逼你承认：安全壳、奖励函数和遥测设计本身就是系统能力的一部分。Jim 还把稀缺资源排序说清楚：最稀缺的是 robot-seconds，其次是 GPU-seconds，最后才是 tokens；系统要追踪 MRU、MTU 和 GPU 利用率，再用 Tokens-to-Success、Time-to-Success 评估预算到结果的效率 1。这和过去两周大家讨论的「让模型多消耗 token」正好构成反差：在真实硬件闭环里，token 反而不是第一资源。

Marcus：这不是 Anthropic 的问题，是生成式 AI 的问题

Marcus 今天最有分量的一条，是把 Trump 要求 Anthropic 解决安全绕过问题的争议，改写成对整个 LLM 路线的控诉。他说，自己多年来一直认为 LLM 不够可靠；现在这个简单主张突然成了中心问题。更狠的一句是：Trump 要求的事情做不到，当前没有任何系统能完全抵抗规避；要么限制 LLM 直到更好技术出现，要么接受后果 2。

コンテンツカードを読み込んでいます…

这里值得注意的是，他没有把问题只归到 Anthropic 身上，而是说「这不是 Anthropic problem，是 Generative AI problem」。这和他近期连续批评 OpenAI、Anthropic、监管叙事、估值叙事是一条线：Marcus 不是在判断某家公司产品好坏，而是在押一个更大的判断——如果可靠性不能被工程化封顶，监管和企业采购最终会把账单交回给模型路线本身。

同一天，Marcus 还转述 CBC 对「tokenmaxxing」成本的报道。CBC 写到，Uber 承认 2026 年 AI 预算在前四个月已经用完，后来对每名员工每月每个编码工具设了 1500 美元上限；文章还引用 Marcus 的说法，复杂 agentic 任务可能需要 500 倍、1000 倍 token 3。Marcus 自己抽出的结论是：如果 tokenmaxxing 无法持续，AI 公司可能赚不到原先设想的收入 4。

这让今天的 Marcus 从「安全怀疑论」延伸到「商业模式怀疑论」。一边是系统不能承诺完全不可绕过，一边是企业开始问每一美元 token 是否有回报。两条线合在一起，指向同一个压力：模型能力提升不等于企业愿意无限付费，也不等于监管愿意无限放行。

Mollick：企业战略落后于 Agent，benchmark 也落后于体验

Ethan Mollick 今天给了两个相对温和、但同样重要的信号。第一条是关于大公司 AI 战略。他说，那些去年才意识到 AI 重要性的企业，就算已经算快，也可能是在 2025 年底制定战略；问题是，那时还在 Agentic Revolution 之前，之后事情已经变了 5。

这句话可以和 CBC 的成本线放在一起读：企业一边要压 token 成本，一边又发现自己的 AI 路线图可能已过期。最坏情况不是「预算太少」，而是钱花在旧范式上；最现实的问题也不是要不要用 AI，而是怎样把策略从「全员试用工具」升级为「明确哪些流程适合 Agent、哪些流程必须留在传统系统里」。

Mollick 第二条更像实验笔记。他给了一个「有趣但意外有用」的 benchmark：让模型构建一个程序生成的 3D 港口小镇，从公元前 3000 年演化到公元 3000 年，画面要漂亮，还要允许用户有一定控制；他放出了 20 个模型的 gallery 6。

コンテンツカードを読み込んでいます…

这类任务的价值不在于替代标准 benchmark，而在于暴露「分数看不出来的差异」。Mollick 同一天还提到 GLM-5.2 Max 和 Fable 的诗歌差别：GLM-5.2 能给出正确诗作，威尔士语也有趣；但 Fable 会把「逐渐消失的字母」编进诗的主题里，这种质量差异不是普通 benchmark 容易显示的 7。

这也是他近期持续强调的一点：模型进步不只体现在能不能完成任务，还体现在能不能把任务理解成作品、工具或可交互对象。换句话说，企业战略如果只看成本表，容易低估体验跃迁；如果只看 demo，又会高估可控性。今天的 Mollick 正好夹在 Marcus 和 Jim Fan 中间：既提醒企业别用旧策略看新 Agent，也提醒读者别只用单一分数看模型。

Chollet 与 Marcus：一个说简化问题，一个说别把 AGI 做成标注工厂

François Chollet 今天只有一条短推，但很适合作为尾声。他说，最难的问题很少是通过给解决方案增加复杂度来解决，而是通过重新表述问题，让一个更简单、更清晰的答案显露出来 8。

这句话放在今天几条主线里并不空泛。Jim Fan 的机器人系统不是堆更复杂的提示词，而是重写问题边界：先定义安全、奖励和遥测。Mollick 的港口小镇 benchmark 不是再加一个排行榜，而是把「模型好不好」重写成「能不能生成一个可玩的世界」。Marcus 则从另一个方向提醒：如果你把「完全防绕过」当成目标，却没有能兑现这个目标的技术路线，那问题定义本身就错了。

Marcus 还有一条针对 Meta 的短评：你不能仅靠数据标注到达 AGI，把曾经一流的 AI 研究部门变成数据标注工厂，是企业史上最愚蠢的失误之一 9。这条互动不高，但和 Chollet 的「重新表述问题」遥相呼应：如果 AGI 被定义成更多标注、更大规模、更高 token 消耗，今天几位作者都在从不同角度说，这个定义正在遇到现实边界。

今天的共同信号

本期不像前几天那样围绕单家公司爆点展开，反而更像一次「边界条件」日报。机器人 Agent 这边，安全和奖励函数先于模型发挥；企业 AI 这边，token 成本开始从鼓励消耗转向要求 ROI；模型评测这边，分数不够，Mollick 需要能暴露体验差异的任务；监管叙事这边，Marcus 则把「不能承诺不可绕过」视为路线层面的压力。

所以今天最值得带走的不是某个单点新闻，而是一句更硬的判断：AI 进入 Agent 阶段后，竞争焦点正在从「模型能不能做」转向「系统能不能把它关在可验证、可计费、可负责的边界里」。

Jim Fan：机器人 Agent 难在按下回车之前；Marcus：这不是 Anthropic 问题

Jim Fan：机器人 Agent 的难点在按下回车之前

Marcus：这不是 Anthropic 的问题，是生成式 AI 的问题

Mollick：企业战略落后于 Agent，benchmark 也落后于体验

Chollet 与 Marcus：一个说简化问题，一个说别把 AGI 做成标注工厂

今天的共同信号

参考ソース