今日摘要

Andrej Karpathy:Karpathy 总结 2025 年 LLM 进展,重点提到 RLVR 成为新的关键训练阶段,以及 reasoning / test-time compute 对能力提升的重要性。

量子位:量子位这篇文章提供了一个很明确的信号:Agent 正在从软件能力外溢到专用硬件形态,说明 AI 应用基础设施层会越来越重要。

xAI News:xAI 官方新闻源已纳入关注,但当前抓取环境被 Cloudflare 拦截,后续需要切换到可读镜像、RSS 中间层或其他公开替代源。

OpenAI Engineering:OpenAI engineering 列表显示,Responses API 已开始围绕 agent 场景增加 computer environment,这意味着模型调用正在往更完整的 agent runtime 演进。

观点摘要:OpenAI 在 RSS 中解释了 Model Spec 的定位:它是模型行为的公开框架,用来平衡安全、用户自由与问责,这类规范会直接影响 agent 行为边界。

观点摘要:Anthropic 指出,基础设施配置噪声会显著影响 agentic coding benchmark,波动甚至可能超过榜单模型之间的差距。这对 agent eval 的可信度和复现性是个关键提醒。

观点摘要:Anthropic 持续在强调 harness 设计,这篇聚焦长时间运行的应用开发场景,说明 agent 产品化不只是模型能力问题,更是 runtime、上下文和安全边界设计问题。

观点摘要:Simon Willison 发布了 scan-for-secrets 工具,目标是扫描 Claude Code 等 agent/coding workflow 产出的日志,避免 API key 等敏感信息泄露。这非常贴近 agent 工程真实痛点。

2025 LLM Year in Review

来源:Andrej Karpathy

标签:#News #Model

原文:Karpathy 总结 2025 年 LLM 进展,重点提到 RLVR 成为新的关键训练阶段,以及 reasoning / test-time compute 对能力提升的重要性。

链接:https://karpathy.bearblog.dev/year-in-review-2025/

观点:Karpathy 在这篇年度回顾里把 2025 年 LLM 进展归纳为若干重要范式变化,其中 RLVR 成为新的核心阶段。他强调,模型能力提升越来越不只是预训练规模问题,而是和 reasoning traces、test-time compute、reward-driven optimization 等新因素紧密相关。

为了不跟龙虾抢电脑用,有人开始造Agent专属的“三无”硬件,比Mac Mini+存储便宜

来源:量子位

标签:#News #Infra

原文:量子位这篇文章提供了一个很明确的信号:Agent 正在从软件能力外溢到专用硬件形态,说明 AI 应用基础设施层会越来越重要。

链接:https://mp.weixin.qq.com/s/vc-FU3C0Z7oBj563B1yIrg

观点:目前抓取环境对微信公众号正文抽取有限,但从标题和来源已经能明确看出主题:市场上开始出现专门为 Agent 场景设计的硬件方案,并且以成本、部署形态、专用性为卖点。这说明 Agent 生态开始进入硬件与基础设施层竞争,而不再只是软件工作流。

xAI official site currently blocked by Cloudflare in this environment

来源:xAI News

标签:#News #Agent

原文:xAI 官方新闻源已纳入关注,但当前抓取环境被 Cloudflare 拦截,后续需要切换到可读镜像、RSS 中间层或其他公开替代源。

链接:https://x.ai/news

观点:xAI 官方站点已经列入关注列表,但当前环境访问 x.ai/news 会被 Cloudflare 阻挡。这意味着 source 层面已经纳入了 xAI,但还需要找到替代抓取方案,比如 RSS 镜像、公开转发站、第三方聚合或者可读缓存。

From model to agent: Equipping the Responses API with a computer environment

来源:OpenAI Engineering

标签:#Buildable #Tools

原文:OpenAI engineering 列表显示,Responses API 已开始围绕 agent 场景增加 computer environment,这意味着模型调用正在往更完整的 agent runtime 演进。

链接:https://openai.com/index/equip-responses-api-computer-environment/

观点:OpenAI Engineering 页面当前展示了一系列与 agent 相关的工程文章,其中最新的一篇是 ‘From model to agent: Equipping the Responses API with a computer environment’。从标题和上下文看,重点是把 Responses API 从单纯的模型调用接口,推进到更贴近 agent 的运行环境,让模型能够在更完整的 computer environment 中工作。这个方向和 agent runtime、tool use、computer use 的趋势高度一致。

Inside our approach to the Model Spec

来源:OpenAI Engineering

标签:#News #Application

原文:OpenAI 在 RSS 中解释了 Model Spec 的定位:它是模型行为的公开框架,用来平衡安全、用户自由与问责,这类规范会直接影响 agent 行为边界。

链接:https://openai.com/index/our-approach-to-the-model-spec

观点:OpenAI 的 RSS 描述指出,Model Spec 是一个公开的模型行为框架,目标是在安全、用户自由和问责之间取得平衡。对 agent 来说,这不是抽象政策问题,而是直接关系到代理系统在工具调用、任务执行、风险升级和边界控制上的行为约束。

Quantifying infrastructure noise in agentic coding evals

来源:Anthropic Engineering

标签:#Buildable #Research

原文:Anthropic 指出,基础设施配置噪声会显著影响 agentic coding benchmark,波动甚至可能超过榜单模型之间的差距。这对 agent eval 的可信度和复现性是个关键提醒。

链接:https://www.anthropic.com/engineering/infrastructure-noise

观点:Anthropic Engineering 页面把这篇文章作为 Featured 内容,核心观点是:agentic coding 的评测结果,不仅受模型本身影响,也会被基础设施配置噪声显著扰动。换句话说,如果 runtime、网络、环境、工具链不一致,benchmark 排名差异未必代表模型真实能力差异。这对 agent eval 体系非常重要。

Harness design for long-running application development

来源:Anthropic Engineering

标签:#Buildable #Tools

原文:Anthropic 持续在强调 harness 设计,这篇聚焦长时间运行的应用开发场景,说明 agent 产品化不只是模型能力问题,更是 runtime、上下文和安全边界设计问题。

链接:https://www.anthropic.com/engineering/harness-design-long-running-apps

观点:Anthropic 近期连续多篇文章都在谈 harness、tool use 和长任务开发流程。这篇文章把焦点放在 long-running application development,说明在真实开发环境里,agent 需要处理持续运行、状态保留、上下文管理、权限边界和恢复机制,不能只看单轮 prompt 表现。

scan-for-secrets 0.1

来源:Simon Willison

标签:#Buildable #Tools

原文:Simon Willison 发布了 scan-for-secrets 工具,目标是扫描 Claude Code 等 agent/coding workflow 产出的日志,避免 API key 等敏感信息泄露。这非常贴近 agent 工程真实痛点。

链接:https://simonwillison.net/2026/Apr/5/scan-for-secrets-3/#atom-everything

观点:Simon Willison 介绍了一个新的 Python 工具 scan-for-secrets,用来扫描日志目录中是否意外泄露了 API keys 等敏感信息。他明确提到自己在发布 Claude Code 会话日志时会担心 secrets 暴露,因此构建了这套工具。这个问题非常真实:agent/coding workflow 会生成大量日志和上下文记录,安全清理是必需环节。