架构
GLM 5.2 的分数提醒:Agent 成败常由 Harness 决定— Semgrep / Hacker News
GLM 5.2 在 IDOR 检测上以 39% F1 超过 Claude Code 的 32%,但 Semgrep 自家 multimodal harness 达到 53-61%;真正值得比较的是模型、上下文选择、输出解析和执行回路的组合。
简报
六条关于 agent harness、敏感文件边界、人机工作流、WAL-RUS、开放模型生态与 AI 经济学的深读笔记。
GLM 5.2 在 IDOR 检测上以 39% F1 超过 Claude Code 的 32%,但 Semgrep 自家 multimodal harness 达到 53-61%;真正值得比较的是模型、上下文选择、输出解析和执行回路的组合。
Ignore 文件适合降噪和表达意图,但只要 agent 进程仍能读敏感文件,工具输出、搜索命中和运行日志就可能泄漏内容;真正的边界要由 OS、容器、VM 或最小权限凭据来执行。
Jon Udell 反对把人降级成审批按钮;更好的设计是让人的计划、队列、审查和历史成为主循环,agent 在可见、可恢复的小步里加入协作。
ClickHouse 用 Rust 重写 WAL 归档进程,不是为了泛泛追求更快,而是让 WAL-heavy 场景下的虚拟内存从近 2.8GB 降到 1GB 以下;对 DBaaS 来说,可预测峰值本身就是架构收益。
开放模型不再只是少数玩家的前沿竞赛,而是在 pure model makers、Big Tech、产品公司和 sovereign AI 之间分化;发布者靠什么赚钱,决定了开源策略是否可持续。
Gary Marcus 把中国模型追赶解读为无护城河、更多竞争者和 token 价格战的组合:如果 LLM 范式昂贵、可靠性不足又容易复制,能力领先未必能变成商业护城河。