如果用户必须把 AI 的工作重做一遍才能验证,问题不只在 eval,而是产品没有把来源、定义、中间步骤和不可验证项做成一等产物。
简报
2026 年 7 月 1 日
十条关于 AI 产品验证、企业 agent、开发者工具信任、类型边界、GPU/异步系统、数据中心电力与辐射风险的深读笔记。
ScarfBench 把企业 Java 迁移评估从代码生成拉回系统现实:构建、部署、行为验证都过关才算成功,而当前最强 agent 的行为成功率仍低于 10%。
Sierra 的 agent engineer/FDE 模型说明,企业 agent 的核心工作是把客户流程、API、品牌语气、发布治理和验证路径编码进系统。
Loopcraft 的核心是把人从逐条提示的瓶颈移到循环设计者位置:目标、反馈、路由、验证、预算和权限边界,才是 agent 系统的杠杆。
Claude Code prompt steganography 争议的重点不是反滥用目标是否合理,而是本地开发者工具越靠近文件、命令和凭据,越需要把检测、telemetry 和策略写在明面上。
Parse-don't-validate 的核心不是多写检查,而是在请求、URL、DB、env 等边界把不可信输入收束成更窄的 domain type,让后续代码无需靠记忆相信某个 if 已经跑过。
一个向量加法 kernel 背后是 nvcc、PTX/SASS、host launch stub、driver ioctl、pushbuffer/GPFIFO/QMD、doorbell、SM 和 warp 调度的完整协议栈。
Cloudflare 的 truncated response bug 来自 hyper HTTP/1 状态机丢弃 Poll::Pending:数据仍在 buffer 里,连接却被 shutdown,客户端拿到提前 EOF。
Henrico County 的例子说明 AI/cloud 基础设施成本不只在云账单里,还会通过本地电网投资、费率分摊和公共机构电费外溢出来。
低剂量辐射风险不能压成单一累计剂量恐惧指数;真正要拆开的是剂量率、暴露路径、控制权、同意和统计不确定性。