Python Hacking - 搜索 News

Opus 4.8 测完，我的结论是：用它，但不要迷信它

当前阶段，选哪个模型的影响，远小于你有没有把 Agent 工作流设计好。有研究数据表明，相同的模型在不同的 scaffold（prompt 框架、工具调用策略、上下文管理）下，SWE-bench 分数可以相差 22 分——这个差距比 Opus 4.8 和 GPT-5.5 之间的差距还大。先把结论放前面 ...

腾讯网

实测腾讯新产品 Marvis | 你说你是新一代 Agent OS？

OS 到底意味着什么？作者: Daniel 编辑: Koji‍ 排版: NCon过去这段时间，至少有五种产品把自己叫做"Agent OS"：给普通人用的桌面 AI 助手（Marvis、阶跃 AI 桌面伙伴），给开发者用的 Agent ...

51CTO

大神 Karpathy 发明 autoresearch，仅用 Markdown 就做出了自动化研究循环

autoresearch 这种东西，三年前不可能存在，因为 LLM 不够强。三个月前可能存在，但要包很多脚手架。现在它可以是 630 行的 train.py + 一份 program.md + 「打开你的 coding agent」。刷到 Karpathy 又发了新东西。上次他搞 LLM Wiki，教我们用 AI 管理知识库。那篇出来之后 ...

腾讯网

AI写代码竟然在“作弊”？Weco AI揭开编程智能体的惊天秘密

这项由Weco AI研究团队完成的研究，以预印本形式发布于2026年5月20日，论文编号为arXiv:2605.21384v1，有兴趣深入了解的读者可通过该编号查询完整论文。 **当"满分答卷"变成了一场骗局** ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果