简报

今天读了什么

每天翻一遍 RSS 订阅源,挑出值得留下的链接与想法,并附上一句它讲了什么。

7 月 1 日
2026
星期三
10 篇
6 月 29 日
2026
星期一
6 篇
架构
GLM 5.2 的分数提醒:Agent 成败常由 Harness 决定
— Semgrep / Hacker News

GLM 5.2 在 IDOR 检测上以 39% F1 超过 Claude Code 的 32%,但 Semgrep 自家 multimodal harness 达到 53-61%;真正值得比较的是模型、上下文选择、输出解析和执行回路的组合。

安全
`.agentignore` 不能当安全边界
— GitHub issue / Hacker News

Ignore 文件适合降噪和表达意图,但只要 agent 进程仍能读敏感文件,工具输出、搜索命中和运行日志就可能泄漏内容;真正的边界要由 OS、容器、VM 或最小权限凭据来执行。

系统
WAL-RUS 的重点不是速度,而是可预测内存
— ClickHouse / Hacker News

ClickHouse 用 Rust 重写 WAL 归档进程,不是为了泛泛追求更快,而是让 WAL-heavy 场景下的虚拟内存从近 2.8GB 降到 1GB 以下;对 DBaaS 来说,可预测峰值本身就是架构收益。

开源模型
开放模型正在按商业动机分层
— Interconnects

开放模型不再只是少数玩家的前沿竞赛,而是在 pure model makers、Big Tech、产品公司和 sovereign AI 之间分化;发布者靠什么赚钱,决定了开源策略是否可持续。

策略
AI 竞争的风险是价格战吞掉高成本范式
— Gary Marcus

Gary Marcus 把中国模型追赶解读为无护城河、更多竞争者和 token 价格战的组合:如果 LLM 范式昂贵、可靠性不足又容易复制,能力领先未必能变成商业护城河。

6 月 24 日
2026
星期三
14 篇
智能体
正在到来的 Loop
— Armin Ronacher

关于 agentic coding 里的两层 loop——内层 agent loop 在模型说「完成」时结束,外层 harness loop 决定是否继续——以及为什么后者在一次性、可验证的工作上表现惊人,却会侵蚀需要长期维护的代码。

工程
想提速,先慢下来
— The Pragmatic Engineer

2025 年 11 月的新一代 agent 如何让代码产出激增、而人工审查停滞,以及 Meta 史上最大事故如何追溯到「AI 写、AI 审」的代码越过被裁撤的 Trust & Safety 团队上线。

安全
Prompt Injection 的本质是角色混淆
— Simon Willison

一项研究发现:模型靠文本的「风格」而非角色标签判断谁在说话——把攻击改写得略微不合格式,就能让成功率从 61% 降到 10%。

安全
Mythos 之后:Gray Swan 的 AI 红队
— Latent Space

关于一个排名已超过人类高手的自动化红队系统、「模型不随规模自动变安全」的发现,以及「致命三件套」——不可信输入、私有数据与外泄通道同时存在。

开源模型
GLM-5.2 是开源模型的质变点
— Interconnects

为什么 GLM-5.2 是第一个能在 Claude Code 类 harness 里作为通用 agent 使用的开源权重模型,以远低的价格把美中差距缩小到约 6.8 个月。

研究
VibeThinker:3B 在可验证推理上追平巨头
— arXiv

一个 3B 参数模型,在答案可机器验证的数学与竞赛编程上追平 600B–1T 旗舰,靠的是两段式「先撒网、再聚焦」(Spectrum-to-Signal)的后训练方法。

智能体
CUGA:开源的 Agent 编排 Harness
— Hugging Face / IBM

IBM 的开源 harness 把 planning、状态与 reflection 收进 harness,让开发者只写工具和 prompt,就用开源权重模型拿下 AppWorld 与 WebArena 双榜第一。

工具
Oak:为 Agent 重做的版本控制系统
— oak.space

扁平的 Mercurial 式 manifest 加惰性挂载,让 agent 不必克隆整库就能在多 GB monorepo 上秒级开始编辑——代价是脱离整个 Git 生态。

架构
为 memcached 说几句好话
— jchri.st

一篇论证:memcached 更适合做缓存,恰恰因为它做得少——不持久化、不集群——从而强制了「缓存随时可丢」的正确语义,绕开了「把 Redis 当数据库」的陷阱。

游戏开发
《艾尔登法环》的低技术 AI
— nega.tv

FromSoftware 如何不用规划算法构建 Boss 行为——下推自动机的目标栈、加权随机动作选择和中断回调,让设计师保持完全掌控。

基础设施
为什么美国数据中心接不上电网
— Works in Progress

为什么 AI 数据中心的瓶颈不是电力,而是被投机项目挤满的先到先得并网排队——以及拍卖名额、给灵活性定价如何疏通它。

城市
为什么西方停止了填海造地
— Works in Progress

西方填海造地如何在 1970 年前后停摆——不是因为禁令,而是可被诉讼的环评把单个项目的审批拖成了数十年。

归档

3 篇