本周周报聚焦 2026-W15 这段时间里最值得继续跟踪的 Agent / AI 工程信号。

本周观察

From model to agent: Equipping the Responses API with a computer environment

Inside our approach to the Model Spec

  • 来源:OpenAI Engineering
  • 标签:#Analysis #Application
  • 链接:https://openai.com/index/our-approach-to-the-model-spec
  • 摘要:OpenAI 在 RSS 中解释了 Model Spec 的定位:它是模型行为的公开框架,用来平衡安全、用户自由与问责,这类规范会直接影响 agent 行为边界。

Quantifying infrastructure noise in agentic coding evals

  • 来源:Anthropic Engineering
  • 标签:#Buildable #Research
  • 链接:https://www.anthropic.com/engineering/infrastructure-noise
  • 摘要:Anthropic 指出,基础设施配置噪声会显著影响 agentic coding benchmark,波动甚至可能超过榜单模型之间的差距。这对 agent eval 的可信度和复现性是个关键提醒。

Harness design for long-running application development

  • 来源:Anthropic Engineering
  • 标签:#Buildable #Tools
  • 链接:https://www.anthropic.com/engineering/harness-design-long-running-apps
  • 摘要:Anthropic 持续在强调 harness 设计,这篇聚焦长时间运行的应用开发场景,说明 agent 产品化不只是模型能力问题,更是 runtime、上下文和安全边界设计问题。

scan-for-secrets 0.1

  • 来源:Simon Willison
  • 标签:#Buildable #Tools #Simon-Willison
  • 链接:https://simonwillison.net/2026/Apr/5/scan-for-secrets-3/#atom-everything
  • 摘要:Simon Willison 发布了 scan-for-secrets 工具,目标是扫描 Claude Code 等 agent/coding workflow 产出的日志,避免 API key 等敏感信息泄露。这非常贴近 agent 工程真实痛点。

research-llm-apis 2026-04-04

2025 LLM Year in Review

  • 来源:Andrej Karpathy
  • 标签:#Analysis #Model #Andrej-Karpathy
  • 链接:https://karpathy.bearblog.dev/year-in-review-2025/
  • 摘要:Karpathy 总结 2025 年 LLM 进展,重点提到 RLVR 成为新的关键训练阶段,以及 reasoning / test-time compute 对能力提升的重要性。

为了不跟龙虾抢电脑用,有人开始造Agent专属的“三无”硬件,比Mac Mini+存储便宜

  • 来源:量子位
  • 标签:#News #Infra
  • 链接:https://mp.weixin.qq.com/s/vc-FU3C0Z7oBj563B1yIrg
  • 摘要:量子位这篇文章提供了一个很明确的信号:Agent 正在从软件能力外溢到专用硬件形态,说明 AI 应用基础设施层会越来越重要。

编辑部判断

  • Agent runtime、tool use、harness design 依然是最明确的主线。
  • 多模型 API 抽象正在变难,平台层会继续分化。
  • 基础设施噪声与专用硬件正在从“配角”变成真正的重要变量。