ai_news_summary_2026-03-29

AINews - 2026-03-29

原文链接

📰 十大AI新闻要点

1. Anthropic 计划推出超越Opus的新模型层级“Capybara”

根据泄露信息和《财富》杂志的报道,Anthropic 正在开发一个名为“Capybara”的新模型层级,定位在 Claude Opus 4.6 之上,据称在编码、学术推理和网络安全方面表现显著提升。其发布受限于高昂的成本和安全考量。
来源:文章内容(引用自 @M1Astra 和 @scaling01 的推文)


2. Google 接近资助 Anthropic 数据中心建设

《金融时报》报道称,Google 即将为 Anthropic 的数据中心提供资金支持。这突显出前沿AI模型的竞争正日益受到算力、能源和资本支出的制约,而不仅仅是算法本身。
来源:文章内容(引用自 @FirstSquawk 的推文)


3. 智谱AI发布GLM-5.1,开源编码模型性能逼近闭源模型

智谱AI向所有编码计划用户开放了GLM-5.1模型。社区评测和Arena排行榜分析均表明,以GLM-5.1为代表的高端中文开源/半开源编码模型,与闭源模型之间的性能差距正在迅速缩小。
来源:https://x.com/Zai_org/status/2037490078126084514


4. 本地模型部署经济性持续改善,成为可行替代方案

多个案例显示,本地模型(如Qwen 3.5 14B/27B/35B)通过量化等技术,已能在消费级硬件上高效运行,为许多工作流提供了成本可控的云端API替代方案,性能损失极小。
来源:https://x.com/TheGeorgePu/status/2037473248577782046


5. TurboQuant量化技术引发性能争议

研究人员 @gaoj0017 对Google的ICLR 2026 TurboQuant论文提出质疑,指控其在理论和基准测试中歪曲了与RaBitQ的比较,包括不公平的CPU与GPU对比。这引发了社区对相关性能宣传的讨论。
来源:https://x.com/gaoj0017/status/2037532673812443214


6. Nous Research的Hermes Agent成为开源AI智能体焦点

Hermes Agent集成了Hugging Face作为首要推理提供商,提供28个精选模型,并支持更多模型访问。这标志着开源智能体在记忆、持久化机器访问和模型选择方面迈出了重要一步。
来源:https://x.com/NousResearch/status/2037654827929338324


7. AI智能体基础设施走向成熟,关注可追溯性、评估与调试

Hugging Face呼吁建立开放的智能体轨迹数据集,LangChain则发布了一系列面向生产环境的工具,包括智能体评估准备清单、Deep Agents IDE风格UI指南和LangSmith Prompt Hub环境。这表明智能体技术栈正从“带工具的聊天机器人”向具备软件生命周期原语的方向演进。
来源:https://x.com/ClementDelangue/status/2037530125638455610


8. Meta发布SAM 3.1,显著提升视频分割速度

Meta发布了SAM 3.1,这是一个支持对象多路复用的即插即用更新,允许单次前向传播处理多达16个对象。据称,在中等对象工作负载下,单个H100上的视频处理吞吐量从约16 FPS提升至32 FPS。
来源:https://x.com/AIatMeta/status/2037582117375553924


9. 世界模型与机器人学领域出现重要开源发布

Yann LeCun团队的LeWorldModel论文/代码库发布,这是一个旨在通过SIGReg使表征崩溃在数学上不可能的小型开源世界模型。同时,宇树科技开源了UnifoLM-WBT-Dataset,一个用于人形机器人全身遥操作的真实世界数据集。
来源:https://x.com/LiorOnAI/status/2037484990779339064


10. 语音与音频领域开源模型表现强劲

Cohere发布了新的20亿参数、Apache-2.0许可的转录模型,在A100上实现了12分钟转录33小时音频的高吞吐量。同时,Mistral的Voxtral TTS论文和相关演示也受到关注,显示出开源音频模型的活跃发展。
来源:https://x.com/victormustar/status/2037572662659104976


🛠️ 十大工具产品要点

1. TurboQuant vLLM 优化分支

@iotcoi 发布了一个TurboQuant vLLM分支,融合了Triton KV写入路径和解码注意力机制,针对Qwen3.5-35B AWQ模型,目标支持100万上下文长度和400万KV缓存,旨在提升长上下文推理效率。
来源:https://x.com/iotcoi/status/2037478891179135123


2. 针对RTX Pro 6000的INT4量化方案

@bnjmn_marie 对Qwen3.5 27B模型在不同格式和硬件(RTX Pro 6000/B200/H100)上进行了基准测试,结果显示INT4量化在RTX Pro 6000级别硬件上是推理的最佳选择。
来源:https://x.com/bnjmn_marie/status/2037564190802563157


3. 开源量化新方法 RotorQuant

RotorQuant 提出了一种利用克利福德代数进行向量量化的新方法,据称比TurboQuant快10-19倍,且参数减少44倍。虽然理论上的最大坐标幅度和MSE可能更高,但在实际KV缓存分布中表现出有价值的性能/质量权衡。
来源:https://github.com/scrya-com/rotorquant


4. OpenAI Codex 插件生态系统扩展

OpenAI开发者展示了Codex插件及其用例库,同时Box公司发布了用于自动化Box内容工作流的Codex插件。这表明Codex生态正从简单的提示/响应模式,转向集成持久化工作空间、问题系统、终端和PR流程的深度工作流自动化。
来源:https://x.com/OpenAIDevs/status/2037604273434018259


5. 实时浏览器会话调试仪表板

@ctatedev 发布了一个新的智能体-浏览器仪表板,用于实时调试浏览器会话。这是智能体开发工具链走向成熟、提升可调试性的一个例证。
来源:https://x.com/ctatedev/status/2037599050112160165


6. 面向真实工作负载的智能体基准测试 AA-AgentPerf

Artificial Analysis 推出了AA-AgentPerf基准测试,专注于真实的编码智能体轨迹、超过10万的序列长度,并以“每加速器/每千瓦/每美元/每机架的并发用户数”来衡量吞吐量。这比合成的令牌基准测试更贴近实际部署需求。
来源:https://x.com/ArtificialAnlys/status/2037562417836929315


7. 长视野编码评估基准 CursorBench

CursorBench 基准测试因其使用真实编码会话、未充分指定的提示、更广泛的质量维度以及每个任务中位数181行的代码更改量而受到认可。这比静态的玩具任务更能健康地评估智能体的长程编码能力。
来源:文章内容(引用自 @cwolferesearch 的推文)


8. 开源机器人操作套件 MolmoBot

AI2 发布了MolmoBot,这是一个完全在模拟中训练的开源机器人操作套件,提供了代码、训练数据、生成管道和评估方法,旨在提高机器人学研究的可复现性。
来源:https://x.com/allen_ai/status/2037590611990094259


9. 基于 Clifford 代数的快速量化实现

RotorQuant 的实现利用了融合的CUDA内核和Metal着色器,在RTX PRO 4000和Apple M4等硬件上显著优于cuBLAS矩阵乘法运算,为本地部署提供了高效的量化选项。
来源:https://www.scrya.com/rotorquant/


10. 本地模型部署优化实践(TurboQuant + llama.cpp)

社区实验成功将Google的TurboQuant压缩方法集成到llama.cpp中,使得Qwen 3.5–9B模型能够在标准MacBook Air (M4, 16GB)上运行20K上下文,这在此类硬件上原本是不可行的,展示了量化技术对扩展本地模型能力的潜力。
来源:https://www.reddit.com/r/LocalLLaMA/comments/1s5kdu0/google_turboquant_running_qwen_locally_on_macair/