AINews - 2026-03-31
📰 十大AI新闻要点
1. Anthropic 被曝正在开发超越Opus的新模型层级“Capybara”
据《财富》杂志报道及泄露信息,Anthropic 正在开发一个名为“Capybara”的新模型层级,定位高于当前的 Claude Opus 4.6,据称在编码、学术推理和网络安全方面表现显著提升。其发布受限于高昂的成本和安全考量。同时,有消息称谷歌正接近资助 Anthropic 的数据中心建设。
来源:文章内容
2. 智谱AI发布GLM-5.1,持续缩小与闭源编码模型的差距
智谱AI宣布 GLM-5.1 已对所有编码计划用户开放。社区反应认为,以 GLM-5.1 为代表的中国开源/半开源高端编码模型正在迅速缩小与闭源模型(如Claude Opus)的性能差距,Arena 排行榜分析也显示这一差距比一年前大幅收窄。
来源:文章内容
3. Nous Research的Hermes Agent成为开源AI Agent焦点产品
Nous Research 的 Hermes Agent 展现出强劲的产品势头,已集成 Hugging Face 作为首要推理提供商,提供28个精选模型及更多模型访问。用户报告称其比 OpenClaw 等重度依赖浏览器自动化的方案摩擦更低、持久性更好,标志着AI Agent正从演示走向成熟产品。
来源:文章内容
4. OpenAI Codex生态系统向工作空间原生自动化演进
OpenAI 开发者展示了 Codex 插件和用例库,Box 公司也发布了用于自动化 Box 内容工作流的 Codex 插件。用户反馈表明,开发重心正从简单的提示/响应转向持久化工作空间、问题系统、终端、PR流程和插件,形成“软件舰队管理”的新用户体验模式。
来源:文章内容
5. Meta发布SAM 3.1,显著提升视频分割推理速度
Meta 发布了 SAM 3.1,这是 SAM 3 的直接升级版,引入了对象复用功能,允许在单次前向传递中处理多达16个对象。据称,对于中等对象负载的视频,在单个 H100 上的吞吐量从约16 FPS提升至约32 FPS,使视频分割管道更易实现。
来源:文章内容
6. 杨立昆团队发布小型开源世界模型LeWorldModel
杨立昆(Yann LeCun)团队发布了名为 LeWorldModel 的小型开源世界模型。该模型旨在通过 SIGReg 方法使表征崩溃在数学上成为不可能,据称可实现48倍更快的规划和约200倍更少的令牌消耗,为世界模型研究提供了新的开源基准。
来源:文章内容
7. Cohere发布Apache-2.0许可的2B参数转录模型
Cohere 新发布的 Apache-2.0 许可的 2B 参数转录模型获得了社区好评。性能测试显示,在 A100 上,该模型可在12分钟内转录33小时的音频,展示了开源音频模型领域的持续活力。
来源:文章内容
8. 谷歌TurboQuant论文遭质疑,被指在理论和基准测试中存在误导
研究人员对谷歌 ICLR 2026 的 TurboQuant 论文提出强烈质疑,指控其在对 RaBitQ 方法的理论和基准测试描述中存在不实之处,包括不公平的 CPU 与 GPU 比较。这引发了社区对这篇被广泛宣传的系统论文部分结论的怀疑。
来源:文章内容
9. 本地模型部署经济性持续改善,量化与缓存技术是关键
社区报告显示,本地模型(如 Qwen 系列)对于许多工作流已“足够好”。通过量化(如 INT4)和缓存优化(如 TurboQuant vLLM 分支),用户可以在消费级硬件上运行更大模型和更长上下文,例如将 Qwen3.5-35B 压缩至可在24GB VRAM中容纳完整上下文,平均性能仅下降约1%。
来源:文章内容
10. AI Agent基础设施围绕可追溯性、评估和调试能力走向成熟
Hugging Face 呼吁建立开放的 Agent 轨迹数据集,并提及 Agent Data Protocol。LangChain 则发布了一系列面向生产的材料,包括 Agent 评估准备清单、Deep Agents IDE风格UI指南以及用于提示管理/回滚的 LangSmith Prompt Hub Environments。这表明AI Agent技术栈正从“带工具的聊天机器人”向具备软件生命周期原语的方向演进。
来源:文章内容
🛠️ 十大工具产品要点
1. TurboQuant vLLM 分支
开发者发布了 TurboQuant vLLM 分支,融合了 Triton KV 写入路径和解码注意力机制,针对 Qwen3.5-35B AWQ 模型、1M 上下文和 4M KV 缓存进行了优化,旨在提升长上下文本地推理的效率。
来源:文章内容
2. RotorQuant:基于Clifford代数的快速量化替代方案
RotorQuant 提出了一种利用 Clifford 代数进行向量量化的新方法,据称比 TurboQuant 快10-19倍,且参数减少44倍。该方法用 Clifford 旋量器替换随机正交矩阵,显著降低了计算复杂度,在 RTX Pro 4000 和 Apple M4 等硬件上表现优异。
来源:文章内容
3. Hermes Agent 集成 Hugging Face 模型库
Nous Research 的 Hermes Agent 现已集成 Hugging Face 作为推理后端,为用户提供了对28个精选模型以及 Hugging Face 上众多其他模型的一键访问能力,极大地扩展了开源 Agent 的模型选择范围。
来源:文章内容
4. LangChain Deep Agents IDE风格UI
LangChain 推出了 Deep Agents,这是一个 IDE 风格的 UI 指南,旨在为构建和调试复杂的多步骤 AI Agent 提供更直观、更强大的开发环境,标志着 Agent 开发工具向专业化演进。
来源:文章内容
5. LangSmith Prompt Hub Environments
LangChain 发布了 LangSmith Prompt Hub Environments 功能,允许团队在不同环境(如开发、生产)中管理、推广和回滚提示词版本,为 AI 应用的提示词生命周期管理提供了工程化解决方案。
来源:文章内容
6. 智谱AI GLM-5.1 编码模型
智谱AI发布的 GLM-5.1 编码模型在编码评估中得分显著提升(从 GLM-5 的35.4提升至45.3),并通过 Z.ai 平台向所有编码计划用户开放,提供了用于 Agent 开发的文档。
来源:文章内容
7. Unitree Robotics 开源人形机器人全身遥操作数据集
Unitree Robotics 开源了 UnifoLM-WBT-Dataset,这是一个真实世界的人形机器人全身遥操作数据集,并计划进行滚动更新,旨在推动开源机器人学习和控制算法的研究。
来源:文章内容
8. AI2 开源机器人操作套件 MolmoBot
艾伦人工智能研究所(AI2)发布了 MolmoBot,这是一个完全在模拟中训练的开源机器人操作套件,提供了完整的代码、训练数据、生成管道和评估标准,提高了机器人研究的可复现性。
来源:文章内容
9. 针对长上下文推理的稀疏KV缓存优化
社区开发者在 llama.cpp 的 TurboQuant 实现中引入了一项优化,通过跳过对注意力权重可忽略的位置进行 KV 反量化,在 32K 上下文长度下实现了 22.8% 的解码速度提升,且不影响困惑度(PPL)。
来源:文章内容
10. 实时浏览器会话调试仪表板
开发者发布了一款新的 Agent-浏览器仪表板工具,用于实时调试 AI Agent 的浏览器会话,这有助于开发者理解和优化 Agent 在复杂网页环境中的交互行为。
来源:文章内容