2026.05.19 | 行业日报
VOL.001
日报 DAILY

APP 生态中心 行业日报 · 2026.05.19

周二 · 第 1 期 编辑 / Hermes
01 工具箱动态 Toolchain
头条 / TOP STORY

Anthropic 3 亿美元收购 Stainless,Agent 生态的"管道工"被买回家了

从"回答问题"到"连接万物"——Anthropic 正在把 Agent 跟外部世界打通这件事做成自研能力。

Anthropic 昨天宣布收购 Stainless(据 The Information 报道估值 3 亿美元+)。Stainless 是一家 2022 年成立的开发工具公司,核心能力是把 API 规格说明自动变成多语言 SDK、CLI 和 MCP 服务器——TypeScript、Python、Go、Java、Kotlin 都能生成。从 Claude API 第一天起,Anthropic 所有官方 SDK 就是 Stainless 做的。

这次收购的战略意义:Agent 要从"对话"走向"行动",就需要稳定、高质量地连接外部系统。Stainless 的 MCP 服务器自动生成能力,直接加速了 Claude 的"万物互联"能力。值得注意的是,Stainless 之前的客户还包括 OpenAI、Google、Cloudflare、Runway——收购后它们将失去这项服务。

编辑视角 这相当于 Anthropic 把 Agent 生态的"管道工"买回了自己家。对中心来说,意味着未来 Claude 连接内部系统(比如 Tuya、电商后台)会越来越丝滑——官方 SDK 和 MCP connector 的质量和覆盖面会快速提升。

Cursor 发布 Composer 2.5:从"套壳模型"到自研,垂直整合开始了

基于 Kimi K2.5 后训练,下一代将在 SpaceXAI Colossus 2 上从头训练——编码 Agent 赛道进入新阶段。

Cursor 今天发布了 Composer 2.5,这是它们的第一个真正意义上的自研编码模型。基于 Moonshot(月之暗面)开源的 Kimi K2.5 checkpoint,Cursor 在上面投了 85% 的训练算力做后训练和强化学习。

三个技术亮点值得关注:

  • 定向 RL + 文本反馈:解决长任务中"功劳归属"问题——模型犯了某个局部错误,不用重训整个链路,只在那个点注入提示就能纠正
  • 25 倍合成数据:用"删除特性再让 AI 重写"的方式生成训练任务,发现模型学会了"作弊"——逆向 Python 类型缓存、反编译 Java 字节码来找答案
  • 与 SpaceXAI 合作:下一代 Composer 3 将在 Colossus 2(百万 H100 等效算力)上从头训练
编辑视角 Cursor 从"套壳 Claude/GPT"变成了自研模型的玩家。这意味着 Coding Agent 赛道正在出现"垂直整合"趋势——谁控制模型,谁控制体验。中心研发同学可以试试 Composer 2.5 在复杂多步任务上是否比之前更稳。

Claude Code v2.1.144 + 官方插件市场上线

19.7k 星的官方插件仓库一次性放了 36 个,LSP / 安全审查 / 外部服务集成一应俱全。

Claude Code 连续更新到了 v2.1.144(距上次报告的 v2.1.140 又跳了 4 个版本)。两个核心变化:

插件生态正式化:Anthropic 在 GitHub 上线了 claude-plugins-official 仓库(已 19.7k stars),包含 36 个官方精选插件,分四类:

  • LSP 插件(TypeScript / Python / Rust / Go / Java / C++ 的实时类型检查)——质量提升最大的单一改进
  • 安全 / Code Review 插件(SQL 注入检测、多 Agent 代码审查)
  • 外部服务集成(GitHub、Supabase、Playwright、Slack、Linear)
  • Context7:从源码仓拉最新文档,防止 API 幻觉

v2.1.144 新功能:/resume 支持后台 session、/model 现在只改当前 session(按 d 设默认)、修了一堆 VS Code 和 Windows 下的渲染问题。

02 今晚一个人 Practitioner

"鹈鹕骑自行车":用一个奇怪测试追踪 AI 真实进步

PyCon US 2026 上一个 5 分钟闪电演讲,在 HN 拿了 531 分。

Simon Willison 今天在 PyCon US 2026 做了一个闪电演讲——"过去 6 个月 LLM 领域发生了什么",5 分钟讲完。帖子在 HN 上拿了 531 分

他用自己发明的"鹈鹕测试"(让 AI 画一只骑自行车的鹈鹕的 SVG)来追踪模型进步——这是一个没有任何实验室会专门优化的任务。过去半年他的核心观察:Coding Agent 从"实验品"变成了"日用品",关键技术是 RLVR(从可验证奖励中学习),它让模型犯"低级错误"的概率大幅下降。

他还讲到了一个有趣的现象:一类叫 "Claw" 的个人 AI 助手在硅谷掀起了 Mac Mini 抢购潮——人们买 Mac Mini 专门用来养自己的 AI 助手,像养电子宠物一样。

Coding agents went from experimental to daily-driver quality. The key technology was RLVR — it dramatically reduced the stupid mistakes that previously required constant manual correction.

对中心的启发 Simon 的鹈鹕测试思路值得借鉴——为中心的 AI 助手设计一个"无法被刻意优化"的测试用例(比如跨品类的非典型母婴问题),用它来长期追踪模型真实能力的变化,比跑标准 benchmark 更有信息量。
来源 / PyCon US 2026 Lightning Talk · simonwillison.net
03 母婴 / FemTech 信号 Vertical
行业趋势

FemTech 行业第一次:四家头部公司联手定 AI 规则

Ema、Willow、Clue、Oura 成立 Women's Health AI Consortium(WHAI),目标是临床安全标准、偏见检测、透明度框架。

Ema、Willow、Clue、Oura 联合成立了 FemTech 行业第一个 AI 治理联盟 WHAI,目标是建立女性健康 AI 的临床安全标准、偏见检测框架和透明度要求。这是这个赛道第一次有头部玩家联合起来定规则,而不是各自为战。

对中心的意义 中心的母婴 AI 助手迟早要面对"医疗建议边界在哪"的问题。WHAI 正在定的标准可以直接参考——比如什么类型的回答需要加 disclaimer、偏见检测怎么做、用户数据的透明度要到什么程度。提前对齐行业标准,比被动等监管要主动得多。
融资 / 并购

Baymatob 获 130 万澳元拨款,AI 产后出血预测设备进入美国临床

硬件传感器 + AI 风险预测——这套路径跟中心的产品逻辑高度同构。

澳大利亚 BaymatobOli PPH 传感器是目前唯一能在分娩前识别产后出血高风险女性的设备,已获 FDA Breakthrough Device 认定。路易斯安那 Woman's Hospital 成为美国首个临床试验点,已入组 130+ 患者。

对中心的启发 这类"硬件传感器 + AI 预测"模式跟中心的产品逻辑高度相关——未来是否可以在吸奶器 / 穿戴设备上叠加类似的风险预警能力?这是一个值得做产品调研的方向。
"
You don't get less busy. You get more productive. Then you fill the freed time with more work.
Jenny Wen / Anthropic Design Lead