
这两年 AI 编程助手火得一塌糊涂。GitHub Copilot、Cursor、Codex、Claude Code……工具一个比一个强,用起来确实爽。只需要用自然语言描述需求,AI 就能帮你写代码、改 Bug、跑测试,甚至排查之前让你绞尽脑汁的线上问题。
... ➦... ➦题记:Notion CEO Ivan Zhao 最近发表了一篇长文《蒸汽、钢铁与无限心智》,通过类比钢铁和蒸汽机的历史,探讨了 AI 如何重塑知识工作——从提升个人效率,到改变组织形态,乃至重构整个经济结构。文章视野开阔,类比精准,值得一读。原文链接:Steam, Steel, and Infinite Minds https://x.com/ivanhzhao/status/2003192654545539400。以下为全文翻译。
如果你还在观望到底要不要在项目里使用 AI Agents,Anthropic 刚刚发布的《2026 State of AI Agents Report》会给你一个明确答案。
报告调研了 500 多家企业,发现 57% 的企业已经部署了多阶段工作流的 AI Agent。注意,这已早不是之前那种简单的聊天机器人,而是能独立完成客服解答、员工入职这类复杂任务的 AI 系统。并且,80% 的企业已经看到了真金白银的投资回报。
... ➦大多数人用 AI 编程助手的方式,其实是错的。
包括我自己。之前用 GitHub Copilot,后来又试了 Cursor、Claude Code 和 Codex。刚开始觉得挺神奇,让 AI 生成一段代码,几分钟就出来了。用多了就发现不对劲,生成的代码虽然能跑,质量参差不齐。有时候代码越改越乱,还不如自己写。
... ➦
这两天,OpenAI 和 Anthropic 居然坐到了一起,联合 Block 成立了 Agentic AI 基金会(AAIF),把各自的核心开源项目捐给了 Linux Foundation。
看到这个消息,我第一反应是——这背后的野心不小。想想当年的 CNCF 就明白了。
... ➦Codex CLI v0.65.0 带来了一个我期待已久的功能——Skills 支持。
这个功能最早是 Anthropic 在 Claude Code 上推出的,我已经用了一段时间,早就想着什么时候 Codex 也能有。上周末刷 Codex GitHub 看到合并的 PR,就花了点时间把之前写的 Claude Code Skills 迁移过来,顺手开源在了 GitHub https://github.com/feiskyer/codex-settings 上。
... ➦上个月的 KubeCon 上,Google Cloud 宣布在实验环境中成功运行了 13 万节点的 GKE 集群。而在更早的 7 月,AWS 也发布了 EKS 正式支持 10 万节点集群的消息。
10 万节点是什么概念?按 AWS 的说法,这意味着一个集群可以容纳 160 万颗 Trainium 芯片,或者 80 万块 NVIDIA GPU。这已经不是普通的“大规模”了,基本相当于把一个小城市的算力都集中到了一起。
... ➦上周我想让 Claude Code 帮我验证一个项目中所有数据查询的问题。虽然它们都散乱在项目的不同位置,但任务本身其实不算复杂,大概涉及 100 多个查询。主要复杂的问题在于失败后的处理:找到正确的数据结构、查询一些数据确认有效字段、汇总查询确认可能取值、最后再去重新构造查询。
... ➦做过 Agent 开发的朋友应该都有体会,调 Prompt 真是个细活儿。有时候就改了几个词,模型的表现就可能天差地别。工具描述写得不够清楚,工具数量一多,模型就不知道该怎么选择了。任务定义稍微含糊一点,输出就开始极不稳定。这也是为什么很多 Agent 产品发布都很惊艳,但实际场景一上手就完全是另外一回事了。
... ➦Gemini 3.0 终于来了,谷歌昨天晚上正式发布了 Gemini 3.0 Pro 预览版,各项测评直接登顶,刷爆 LMArena 榜单。除 SWE-Bench Verified 这一项比 Sonnet 4.5 低一个百分点外,其他各个指标都超越 OpenAI GPT-5.1 和 Claude Sonnet 4.5。特别是 MathArena(数学推理基准)、ScreenSpot(高分辨率GUI基准)、ARC-AGI-2(抽象推理基准)、Human’s Last Exam(人类终极考试基准)等测评基准上都有一倍或数倍的能力提升,这在最近的各大新发顶级模型上还是头一次见。
... ➦