当前阶段,选哪个模型的影响,远小于你有没有把 Agent 工作流设计好。有研究数据表明,相同的模型在不同的 scaffold(prompt 框架、工具调用策略、上下文管理)下,SWE-bench 分数可以相差 22 分——这个差距比 Opus 4.8 和 GPT-5.5 之间的差距还大。 先把结论放前面 ...
OS 到底意味着什么? 作者: Daniel 编辑: Koji‍ 排版: NCon过去这段时间,至少有五种产品把自己叫做"Agent OS":给普通人用的桌面 AI 助手(Marvis、阶跃 AI 桌面伙伴),给开发者用的 Agent ...
autoresearch 这种东西,三年前不可能存在,因为 LLM 不够强。三个月前可能存在,但要包很多脚手架。现在它可以是 630 行的 train.py + 一份 program.md + 「打开你的 coding agent」。 刷到 Karpathy 又发了新东西。 上次他搞 LLM Wiki,教我们用 AI 管理知识库。那篇出来之后 ...
这项由Weco AI研究团队完成的研究,以预印本形式发布于2026年5月20日,论文编号为arXiv:2605.21384v1,有兴趣深入了解的读者可通过该编号查询完整论文。 **当"满分答卷"变成了一场骗局** ...