第38期 Human judgment in the agent improvement loop

今日摘要

OpenAI Blog：OpenAI outlines the next phase of enterprise AI, as adoption accelerates across industries with Frontier, ChatGPT Enterprise, Code…

GitHub karpathy：AI agents running research on single-GPU nanochat training automatically

GitHub anthropics：Public repository for Agent Skills

GitHub openai：Skills Catalog for Codex

GitHub karpathy：A positive developer community for builders and agents.

总结 + 观点：A collection of notebooks/recipes showcasing som…｜中文观点：anthropics/claude-cookbooks 更值得从实际采用价值来判断，而不是…

总结 + 观点：Evals is a framework for evaluating LLMs and LLM…｜中文观点：比起表面参数，openai/evals 更需要观察它是否在推理质量、检索效果或可用性上带来…

总结 + 观点：Official, Anthropic-managed directory of high qu…｜中文观点：anthropics/claude-plugins-official 的核心不在新鲜感，而…

总结 + 观点：Claude Code is an agentic coding tool that lives…｜中文观点：对 anthropics/claude-code，更该看它能不能改善多步骤协作、记忆管理和…

总结 + 观点：A lightweight, powerful framework for multi-agen…｜中文观点：对 openai/openai-agents-python，更该看它能不能改善多步骤协作、…

The next phase of enterprise AI

来源：OpenAI Blog

标签：#ai_engineering_blogs #core

作者：

原文：OpenAI outlines the next phase of enterprise AI, as adoption accelerates across industries with Frontier, ChatGPT Enterprise, Codex, and company-wide AI agents.

链接：https://openai.com/index/next-phase-of-enterprise-ai

观点：围绕 The next phase of enterprise AI，真正重要的是它会不会影响团队的模型选型、性能边界和产品体验。

karpathy/autoresearch

来源：GitHub karpathy

标签：#github_orgs #extended

作者：

原文：AI agents running research on single-GPU nanochat training automatically

链接：https://github.com/karpathy/autoresearch

观点：围绕 karpathy/autoresearch，真正重要的是它会不会影响团队的模型选型、性能边界和产品体验。

anthropics/skills

来源：GitHub anthropics

标签：#github_orgs #extended

作者：

原文：Public repository for Agent Skills

链接：https://github.com/anthropics/skills

观点：anthropics/skills 的核心不在新鲜感，而在它是否能提升工程效率、部署稳定性或开发者工作流。

openai/skills

来源：GitHub openai

标签：#github_orgs #extended

作者：

原文：Skills Catalog for Codex

链接：https://github.com/openai/skills

观点：openai/skills 更值得从实际采用价值来判断，而不是只看它有没有制造新的讨论热度。

karpathy/KarpathyTalk

来源：GitHub karpathy

标签：#github_orgs #extended

作者：

原文：A positive developer community for builders and agents.

链接：https://github.com/karpathy/KarpathyTalk

观点：karpathy/KarpathyTalk 更值得从实际采用价值来判断，而不是只看它有没有制造新的讨论热度。

anthropics/claude-cookbooks

来源：GitHub anthropics

标签：#github_orgs #extended

作者：

原文：A collection of notebooks/recipes showcasing some fun and effective ways of using Claude.

链接：https://github.com/anthropics/claude-cookbooks

观点：anthropics/claude-cookbooks 更值得从实际采用价值来判断，而不是只看它有没有制造新的讨论热度。

openai/evals

来源：GitHub openai

标签：#github_orgs #extended

作者：

原文：Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks.

链接：https://github.com/openai/evals

观点：比起表面参数，openai/evals 更需要观察它是否在推理质量、检索效果或可用性上带来真实改进。

anthropics/claude-plugins-official

来源：GitHub anthropics

标签：#github_orgs #extended

作者：

原文：Official, Anthropic-managed directory of high quality Claude Code Plugins.

链接：https://github.com/anthropics/claude-plugins-official

观点：anthropics/claude-plugins-official 的核心不在新鲜感，而在它是否能提升工程效率、部署稳定性或开发者工作流。

anthropics/claude-code

来源：GitHub anthropics

标签：#github_orgs #extended

作者：

原文：Claude Code is an agentic coding tool that lives in your terminal, understands your codebase, and helps you code faster by executing routine tasks, explaining complex code, and handling git workflows - all through natural language commands.

链接：https://github.com/anthropics/claude-code

观点：对 anthropics/claude-code，更该看它能不能改善多步骤协作、记忆管理和稳定交付，而不是只看 demo 效果。

openai/openai-agents-python

来源：GitHub openai

标签：#github_orgs #extended

作者：

原文：A lightweight, powerful framework for multi-agent workflows

链接：https://github.com/openai/openai-agents-python

观点：对 openai/openai-agents-python，更该看它能不能改善多步骤协作、记忆管理和稳定交付，而不是只看 demo 效果。

openai/codex-plugin-cc

来源：GitHub openai

标签：#github_orgs #extended

作者：

原文：Use Codex from Claude Code to review code or delegate tasks.

链接：https://github.com/openai/codex-plugin-cc

观点：openai/codex-plugin-cc 的核心不在新鲜感，而在它是否能提升工程效率、部署稳定性或开发者工作流。

anthropics/courses

来源：GitHub anthropics

标签：#github_orgs #extended

作者：

原文：Anthropic's educational courses

链接：https://github.com/anthropics/courses

观点：anthropics/courses 更值得从实际采用价值来判断，而不是只看它有没有制造新的讨论热度。

openai/codex

来源：GitHub openai

标签：#github_orgs #extended

作者：

原文：Lightweight coding agent that runs in your terminal

链接：https://github.com/openai/codex

观点：openai/codex 更值得从实际采用价值来判断，而不是只看它有没有制造新的讨论热度。

karpathy/LLM101n

来源：GitHub karpathy

标签：#github_orgs #extended

作者：

原文：LLM101n: Let's build a Storyteller

链接：https://github.com/karpathy/LLM101n

观点：karpathy/LLM101n 更值得从实际采用价值来判断，而不是只看它有没有制造新的讨论热度。

karpathy/nanoGPT

来源：GitHub karpathy

标签：#github_orgs #extended

作者：

原文：The simplest, fastest repository for training/finetuning medium-sized GPTs.

链接：https://github.com/karpathy/nanoGPT

观点：比起表面参数，karpathy/nanoGPT 更需要观察它是否在推理质量、检索效果或可用性上带来真实改进。

The Vercel plugin on Claude Code wants to read your prompts

来源：Hacker News Frontpage

标签：#research_community #core

作者：

原文：作者披露 Vercel 给 Claude Code 出的插件默认读取 prompt 并回传遥测数据。

链接：https://akshaychugh.xyz/writings/png/vercel-plugin-telemetry

观点：agent IDE 插件正在变成新的供应链风险入口。这条的意义是它把“插件也要审 supply chain”这件事推到台前。

Human judgment in the agent improvement loop

来源：LangChain Blog

标签：#ai_engineering_blogs #core

作者：

原文：LangChain 讲人类判断怎么嵌入到 agent 改进回路，重点在机构知识的结构化、反馈采集、评估。

链接：https://blog.langchain.com/human-judgment-in-the-agent-improvement-loop/

观点：这是 agent 团队下一阶段最痛的事：agent 要真正贴近业务，就必须让人类领域专家稳定进入改进闭环。

Introducing stateful MCP client capabilities on Amazon Bedrock AgentCore Runtime

来源：AWS Machine Learning Blog

标签：#engineering_ai_infra_blogs #extended

作者：

原文：Bedrock AgentCore 给 MCP 客户端加上有状态能力，让 agent 与外部工具之间能维持跨轮会话。

链接：https://aws.amazon.com/blogs/machine-learning/introducing-stateful-mcp-client-capabilities-on-amazon-bedrock-agentcore-runtime/

观点：stateful MCP 是 agent 从“一次性调用”走向“长期协作”的前置条件，对复杂工作流价值最直接。

Meta removes ads for social media addiction litigation

来源：Hacker News Frontpage

标签：#research_community #core

作者：

原文：Meta 下架与社交媒体成瘾相关的诉讼广告，相关广告客户受影响。

链接：https://www.axios.com/2026/04/09/meta-social-media-addiction-ads

观点：平台政策什么时候该跟进诉讼话题，一直是灰色地带。这条不新鲜但值得留档：它是算法审查尺度的一个微观切片。

How Pizza Tycoon simulated traffic on a 25 MHz CPU

来源：Hacker News Frontpage

标签：#research_community #core

作者：

原文：作者在 25 MHz 的 PC 时代怎么在 Pizza Tycoon 里模拟城市交通的技术复盘，硬件约束下的算法选型非常有趣。

链接：https://pizzalegacy.nl/blog/traffic-system.html

观点：这类老派工程复盘比当代优化文章好看：在硬限制下逼出来的解法，常常比今天“内存无穷大”的世界更有启发。