ai_news_summary_2026-03-31

AINews - 2026-03-31

原文链接

📰 十大AI新闻要点

1. Anthropic 被曝正在开发超越Opus的新模型层级“Capybara”

据《财富》杂志报道及泄露信息，Anthropic 正在开发一个名为“Capybara”的新模型层级，定位高于当前的 Claude Opus 4.6，据称在编码、学术推理和网络安全方面表现显著提升。其发布受限于高昂的成本和安全考量。同时，有消息称谷歌正接近资助 Anthropic 的数据中心建设。
来源：文章内容

2. 智谱AI发布GLM-5.1，持续缩小与闭源编码模型的差距

智谱AI宣布 GLM-5.1 已对所有编码计划用户开放。社区反应认为，以 GLM-5.1 为代表的中国开源/半开源高端编码模型正在迅速缩小与闭源模型（如Claude Opus）的性能差距，Arena 排行榜分析也显示这一差距比一年前大幅收窄。
来源：文章内容

3. Nous Research的Hermes Agent成为开源AI Agent焦点产品

Nous Research 的 Hermes Agent 展现出强劲的产品势头，已集成 Hugging Face 作为首要推理提供商，提供28个精选模型及更多模型访问。用户报告称其比 OpenClaw 等重度依赖浏览器自动化的方案摩擦更低、持久性更好，标志着AI Agent正从演示走向成熟产品。
来源：文章内容

4. OpenAI Codex生态系统向工作空间原生自动化演进

OpenAI 开发者展示了 Codex 插件和用例库，Box 公司也发布了用于自动化 Box 内容工作流的 Codex 插件。用户反馈表明，开发重心正从简单的提示/响应转向持久化工作空间、问题系统、终端、PR流程和插件，形成“软件舰队管理”的新用户体验模式。
来源：文章内容

5. Meta发布SAM 3.1，显著提升视频分割推理速度

Meta 发布了 SAM 3.1，这是 SAM 3 的直接升级版，引入了对象复用功能，允许在单次前向传递中处理多达16个对象。据称，对于中等对象负载的视频，在单个 H100 上的吞吐量从约16 FPS提升至约32 FPS，使视频分割管道更易实现。
来源：文章内容

6. 杨立昆团队发布小型开源世界模型LeWorldModel

杨立昆（Yann LeCun）团队发布了名为 LeWorldModel 的小型开源世界模型。该模型旨在通过 SIGReg 方法使表征崩溃在数学上成为不可能，据称可实现48倍更快的规划和约200倍更少的令牌消耗，为世界模型研究提供了新的开源基准。
来源：文章内容

7. Cohere发布Apache-2.0许可的2B参数转录模型

Cohere 新发布的 Apache-2.0 许可的 2B 参数转录模型获得了社区好评。性能测试显示，在 A100 上，该模型可在12分钟内转录33小时的音频，展示了开源音频模型领域的持续活力。
来源：文章内容

8. 谷歌TurboQuant论文遭质疑，被指在理论和基准测试中存在误导

研究人员对谷歌 ICLR 2026 的 TurboQuant 论文提出强烈质疑，指控其在对 RaBitQ 方法的理论和基准测试描述中存在不实之处，包括不公平的 CPU 与 GPU 比较。这引发了社区对这篇被广泛宣传的系统论文部分结论的怀疑。
来源：文章内容

9. 本地模型部署经济性持续改善，量化与缓存技术是关键

社区报告显示，本地模型（如 Qwen 系列）对于许多工作流已“足够好”。通过量化（如 INT4）和缓存优化（如 TurboQuant vLLM 分支），用户可以在消费级硬件上运行更大模型和更长上下文，例如将 Qwen3.5-35B 压缩至可在24GB VRAM中容纳完整上下文，平均性能仅下降约1%。
来源：文章内容

10. AI Agent基础设施围绕可追溯性、评估和调试能力走向成熟

Hugging Face 呼吁建立开放的 Agent 轨迹数据集，并提及 Agent Data Protocol。LangChain 则发布了一系列面向生产的材料，包括 Agent 评估准备清单、Deep Agents IDE风格UI指南以及用于提示管理/回滚的 LangSmith Prompt Hub Environments。这表明AI Agent技术栈正从“带工具的聊天机器人”向具备软件生命周期原语的方向演进。
来源：文章内容

🛠️ 十大工具产品要点

1. TurboQuant vLLM 分支

开发者发布了 TurboQuant vLLM 分支，融合了 Triton KV 写入路径和解码注意力机制，针对 Qwen3.5-35B AWQ 模型、1M 上下文和 4M KV 缓存进行了优化，旨在提升长上下文本地推理的效率。
来源：文章内容

2. RotorQuant：基于Clifford代数的快速量化替代方案

RotorQuant 提出了一种利用 Clifford 代数进行向量量化的新方法，据称比 TurboQuant 快10-19倍，且参数减少44倍。该方法用 Clifford 旋量器替换随机正交矩阵，显著降低了计算复杂度，在 RTX Pro 4000 和 Apple M4 等硬件上表现优异。
来源：文章内容

3. Hermes Agent 集成 Hugging Face 模型库

Nous Research 的 Hermes Agent 现已集成 Hugging Face 作为推理后端，为用户提供了对28个精选模型以及 Hugging Face 上众多其他模型的一键访问能力，极大地扩展了开源 Agent 的模型选择范围。
来源：文章内容

4. LangChain Deep Agents IDE风格UI

LangChain 推出了 Deep Agents，这是一个 IDE 风格的 UI 指南，旨在为构建和调试复杂的多步骤 AI Agent 提供更直观、更强大的开发环境，标志着 Agent 开发工具向专业化演进。
来源：文章内容

5. LangSmith Prompt Hub Environments

LangChain 发布了 LangSmith Prompt Hub Environments 功能，允许团队在不同环境（如开发、生产）中管理、推广和回滚提示词版本，为 AI 应用的提示词生命周期管理提供了工程化解决方案。
来源：文章内容

6. 智谱AI GLM-5.1 编码模型

智谱AI发布的 GLM-5.1 编码模型在编码评估中得分显著提升（从 GLM-5 的35.4提升至45.3），并通过 Z.ai 平台向所有编码计划用户开放，提供了用于 Agent 开发的文档。
来源：文章内容

7. Unitree Robotics 开源人形机器人全身遥操作数据集

Unitree Robotics 开源了 UnifoLM-WBT-Dataset，这是一个真实世界的人形机器人全身遥操作数据集，并计划进行滚动更新，旨在推动开源机器人学习和控制算法的研究。
来源：文章内容

8. AI2 开源机器人操作套件 MolmoBot

艾伦人工智能研究所（AI2）发布了 MolmoBot，这是一个完全在模拟中训练的开源机器人操作套件，提供了完整的代码、训练数据、生成管道和评估标准，提高了机器人研究的可复现性。
来源：文章内容

9. 针对长上下文推理的稀疏KV缓存优化

社区开发者在 llama.cpp 的 TurboQuant 实现中引入了一项优化，通过跳过对注意力权重可忽略的位置进行 KV 反量化，在 32K 上下文长度下实现了 22.8% 的解码速度提升，且不影响困惑度（PPL）。
来源：文章内容

10. 实时浏览器会话调试仪表板

开发者发布了一款新的 Agent-浏览器仪表板工具，用于实时调试 AI Agent 的浏览器会话，这有助于开发者理解和优化 Agent 在复杂网页环境中的交互行为。
来源：文章内容