第27期 AI News Daily
今日摘要
OpenAI Engineering:OpenAI engineering 列表显示,Responses API 已开始围绕 agent 场景增加 computer environment,这意味着模型调用正在往更完整的 agent runtime 演进。
OpenAI Engineering:OpenAI 在 RSS 中解释了 Model Spec 的定位:它是模型行为的公开框架,用来平衡安全、用户自由与问责,这类规范会直接影响 agent 行为边界。
Anthropic Engineering:Anthropic 指出,基础设施配置噪声会显著影响 agentic coding benchmark,波动甚至可能超过榜单模型之间的差距。这对 agent eval 的可信度和复现性是个关键提醒。
Anthropic Engineering:Anthropic 持续在强调 harness 设计,这篇聚焦长时间运行的应用开发场景,说明 agent 产品化不只是模型能力问题,更是 runtime、上下文和安全边界设计问题。
观点摘要:Simon Willison 发布了 scan-for-secrets 工具,目标是扫描 Claude Code 等 agent/coding workflow 产出的日志,避免 API key 等敏感信息泄露。这非常贴近 agent 工程真实痛点。
观点摘要:Simon 在研究不同大模型厂商 API 的抽象层设计,特别提到 server-side tool execution 让原有统一抽象变得不够。这对多模型 agent 平台设计很有参考价值。
观点摘要:Karpathy 总结 2025 年 LLM 进展,重点提到 RLVR 成为新的关键训练阶段,以及 reasoning / test-time compute 对能力提升的重要性。
观点摘要:量子位这篇文章提供了一个很明确的信号:Agent 正在从软件能力外溢到专用硬件形态,说明 AI 应用基础设施层会越来越重要。
From model to agent: Equipping the Responses API with a computer environment
标签:#Buildable #Tools
原文:OpenAI engineering 列表显示,Responses API 已开始围绕 agent 场景增加 computer environment,这意味着模型调用正在往更完整的 agent runtime 演进。
链接:https://openai.com/index/equip-responses-api-computer-environment/
Inside our approach to the Model Spec
标签:#News #Application
原文:OpenAI 在 RSS 中解释了 Model Spec 的定位:它是模型行为的公开框架,用来平衡安全、用户自由与问责,这类规范会直接影响 agent 行为边界。
Quantifying infrastructure noise in agentic coding evals
标签:#Buildable #Research
原文:Anthropic 指出,基础设施配置噪声会显著影响 agentic coding benchmark,波动甚至可能超过榜单模型之间的差距。这对 agent eval 的可信度和复现性是个关键提醒。
链接:https://www.anthropic.com/engineering/infrastructure-noise
Harness design for long-running application development
标签:#Buildable #Tools
原文:Anthropic 持续在强调 harness 设计,这篇聚焦长时间运行的应用开发场景,说明 agent 产品化不只是模型能力问题,更是 runtime、上下文和安全边界设计问题。
链接:https://www.anthropic.com/engineering/harness-design-long-running-apps
scan-for-secrets 0.1
标签:#Buildable #Tools
原文:Simon Willison 发布了 scan-for-secrets 工具,目标是扫描 Claude Code 等 agent/coding workflow 产出的日志,避免 API key 等敏感信息泄露。这非常贴近 agent 工程真实痛点。
链接:https://simonwillison.net/2026/Apr/5/scan-for-secrets-3/#atom-everything
research-llm-apis 2026-04-04
标签:#Buildable #Tools
原文:Simon 在研究不同大模型厂商 API 的抽象层设计,特别提到 server-side tool execution 让原有统一抽象变得不够。这对多模型 agent 平台设计很有参考价值。
链接:https://simonwillison.net/2026/Apr/5/research-llm-apis/#atom-everything
2025 LLM Year in Review
标签:#News #Model
原文:Karpathy 总结 2025 年 LLM 进展,重点提到 RLVR 成为新的关键训练阶段,以及 reasoning / test-time compute 对能力提升的重要性。
为了不跟龙虾抢电脑用,有人开始造Agent专属的“三无”硬件,比Mac Mini+存储便宜
标签:#News #Infra
原文:量子位这篇文章提供了一个很明确的信号:Agent 正在从软件能力外溢到专用硬件形态,说明 AI 应用基础设施层会越来越重要。