APP 生态中心 · 行业日报

01 工具箱动态 Toolchain

头条 / TOP STORY

Anthropic 3 亿美元收购 Stainless，Agent 生态的"管道工"被买回家了

从"回答问题"到"连接万物"——Anthropic 正在把 Agent 跟外部世界打通这件事做成自研能力。

Anthropic 昨天宣布收购 Stainless（据 The Information 报道估值 3 亿美元+）。Stainless 是一家 2022 年成立的开发工具公司，核心能力是把 API 规格说明自动变成多语言 SDK、CLI 和 MCP 服务器——TypeScript、Python、Go、Java、Kotlin 都能生成。从 Claude API 第一天起，Anthropic 所有官方 SDK 就是 Stainless 做的。

这次收购的战略意义：Agent 要从"对话"走向"行动"，就需要稳定、高质量地连接外部系统。Stainless 的 MCP 服务器自动生成能力，直接加速了 Claude 的"万物互联"能力。值得注意的是，Stainless 之前的客户还包括 OpenAI、Google、Cloudflare、Runway——收购后它们将失去这项服务。

编辑视角这相当于 Anthropic 把 Agent 生态的"管道工"买回了自己家。对中心来说，意味着未来 Claude 连接内部系统（比如 Tuya、电商后台）会越来越丝滑——官方 SDK 和 MCP connector 的质量和覆盖面会快速提升。

来源 / anthropic.com/news/anthropic-acquires-stainless

Cursor 发布 Composer 2.5：从"套壳模型"到自研，垂直整合开始了

基于 Kimi K2.5 后训练，下一代将在 SpaceXAI Colossus 2 上从头训练——编码 Agent 赛道进入新阶段。

Cursor 今天发布了 Composer 2.5，这是它们的第一个真正意义上的自研编码模型。基于 Moonshot（月之暗面）开源的 Kimi K2.5 checkpoint，Cursor 在上面投了 85% 的训练算力做后训练和强化学习。

三个技术亮点值得关注：

定向 RL + 文本反馈：解决长任务中"功劳归属"问题——模型犯了某个局部错误，不用重训整个链路，只在那个点注入提示就能纠正
25 倍合成数据：用"删除特性再让 AI 重写"的方式生成训练任务，发现模型学会了"作弊"——逆向 Python 类型缓存、反编译 Java 字节码来找答案
与 SpaceXAI 合作：下一代 Composer 3 将在 Colossus 2（百万 H100 等效算力）上从头训练

编辑视角 Cursor 从"套壳 Claude/GPT"变成了自研模型的玩家。这意味着 Coding Agent 赛道正在出现"垂直整合"趋势——谁控制模型，谁控制体验。中心研发同学可以试试 Composer 2.5 在复杂多步任务上是否比之前更稳。

来源 / cursor.com/blog/composer-2-5

Claude Code v2.1.144 + 官方插件市场上线

19.7k 星的官方插件仓库一次性放了 36 个，LSP / 安全审查 / 外部服务集成一应俱全。

Claude Code 连续更新到了 v2.1.144（距上次报告的 v2.1.140 又跳了 4 个版本）。两个核心变化：

插件生态正式化：Anthropic 在 GitHub 上线了 claude-plugins-official 仓库（已 19.7k stars），包含 36 个官方精选插件，分四类：

LSP 插件（TypeScript / Python / Rust / Go / Java / C++ 的实时类型检查）——质量提升最大的单一改进
安全 / Code Review 插件（SQL 注入检测、多 Agent 代码审查）
外部服务集成（GitHub、Supabase、Playwright、Slack、Linear）
Context7：从源码仓拉最新文档，防止 API 幻觉

v2.1.144 新功能：/resume 支持后台 session、/model 现在只改当前 session（按 d 设默认）、修了一堆 VS Code 和 Windows 下的渲染问题。

来源 / github.com/anthropics/claude-plugins-official

02 今晚一个人 Practitioner

Simon Willison 独立开发者 · AI 工具观察者

"鹈鹕骑自行车"：用一个奇怪测试追踪 AI 真实进步

PyCon US 2026 上一个 5 分钟闪电演讲，在 HN 拿了 531 分。

Simon Willison 今天在 PyCon US 2026 做了一个闪电演讲——"过去 6 个月 LLM 领域发生了什么"，5 分钟讲完。帖子在 HN 上拿了 531 分。

他用自己发明的"鹈鹕测试"（让 AI 画一只骑自行车的鹈鹕的 SVG）来追踪模型进步——这是一个没有任何实验室会专门优化的任务。过去半年他的核心观察：Coding Agent 从"实验品"变成了"日用品"，关键技术是 RLVR（从可验证奖励中学习），它让模型犯"低级错误"的概率大幅下降。

他还讲到了一个有趣的现象：一类叫 "Claw" 的个人 AI 助手在硅谷掀起了 Mac Mini 抢购潮——人们买 Mac Mini 专门用来养自己的 AI 助手，像养电子宠物一样。

Coding agents went from experimental to daily-driver quality. The key technology was RLVR — it dramatically reduced the stupid mistakes that previously required constant manual correction.

对中心的启发 Simon 的鹈鹕测试思路值得借鉴——为中心的 AI 助手设计一个"无法被刻意优化"的测试用例（比如跨品类的非典型母婴问题），用它来长期追踪模型真实能力的变化，比跑标准 benchmark 更有信息量。

来源 / PyCon US 2026 Lightning Talk · simonwillison.net

03 母婴 / FemTech 信号 Vertical

行业趋势

FemTech 行业第一次：四家头部公司联手定 AI 规则

Ema、Willow、Clue、Oura 成立 Women's Health AI Consortium（WHAI），目标是临床安全标准、偏见检测、透明度框架。

Ema、Willow、Clue、Oura 联合成立了 FemTech 行业第一个 AI 治理联盟 WHAI，目标是建立女性健康 AI 的临床安全标准、偏见检测框架和透明度要求。这是这个赛道第一次有头部玩家联合起来定规则，而不是各自为战。

对中心的意义中心的母婴 AI 助手迟早要面对"医疗建议边界在哪"的问题。WHAI 正在定的标准可以直接参考——比如什么类型的回答需要加 disclaimer、偏见检测怎么做、用户数据的透明度要到什么程度。提前对齐行业标准，比被动等监管要主动得多。

融资 / 并购

Baymatob 获 130 万澳元拨款，AI 产后出血预测设备进入美国临床

硬件传感器 + AI 风险预测——这套路径跟中心的产品逻辑高度同构。

澳大利亚 Baymatob 的 Oli PPH 传感器是目前唯一能在分娩前识别产后出血高风险女性的设备，已获 FDA Breakthrough Device 认定。路易斯安那 Woman's Hospital 成为美国首个临床试验点，已入组 130+ 患者。

对中心的启发这类"硬件传感器 + AI 预测"模式跟中心的产品逻辑高度相关——未来是否可以在吸奶器 / 穿戴设备上叠加类似的风险预警能力？这是一个值得做产品调研的方向。

You don't get less busy. You get more productive. Then you fill the freed time with more work.

Jenny Wen / Anthropic Design Lead