ai_news_summary_2026-01-29

AINews - 2026-01-29

原文链接

📰 十大AI新闻要点

1. Moonshot AI发布Kimi K2.5,在多项基准测试中取得SOTA

Moonshot AI正式发布了Kimi K2.5模型,这是一个32B激活参数、1T总参数的混合专家模型。该模型在多项关键基准测试中取得了领先成绩,包括在HLE完整集上达到50.2%,在BrowseComp上达到74.9%,同时在MMMU Pro和SWE-bench Verified等开源视觉与编码基准测试中也位居榜首。


2. Kimi K2.5引入原生多模态与“智能体集群”功能

Kimi K2.5首次实现了“原生多模态”能力,支持图像和视频理解,能够从屏幕录制视频中重建网站。同时,模型推出了“智能体集群”功能,可动态生成并协调多达100个子智能体并行工作,执行高达1500个协调步骤,据称可将复杂任务速度提升高达4.5倍。


3. Arcee与Prime Intellect联合发布400B MoE模型Trinity Large预览版

Arcee与Prime Intellect合作发布了Trinity Large模型的预览版权重。这是一个拥有4000亿参数、130亿激活参数的混合专家模型,在约17000亿token的数据集上训练完成,旨在成为西方开源社区对标前沿闭源模型的一次尝试。


4. OpenAI推出面向科学家的AI原生协作平台Prism

OpenAI发布了名为Prism的新产品,这是一个由GPT-5.2驱动的免费AI原生工作空间,专为科学家设计。它集成了LaTeX写作、文献搜索、校对和引文管理等功能,被社区视为“带有AI的Overleaf”,旨在提升科研协作效率。


5. DeepSeek发布DeepSeek-OCR 2,大幅提升文档理解效率

DeepSeek发布了新一代OCR模型DeepSeek-OCR 2。该模型引入了视觉因果流学习排序和DeepEncoder V2,实现了高达16倍的视觉token压缩(每图256-1120个token),并在OmniDocBench v1.5基准上取得了91.09%的成绩,提升了3.73%。


6. 谷歌推出“智能体视觉”技术,将代码执行循环引入视觉任务

谷歌正在产品化一种名为“智能体视觉”的技术,该技术为视觉模型引入了“思考-行动-观察”循环。模型可以编写并执行Python代码来裁剪、缩放、注释图像,据称能在多个视觉基准测试上带来5-10%的质量提升。


7. Hugging Face发布Transformers v5,为MoE模型带来6-11倍加速

Hugging Face发布了Transformers库的v5最终版。此版本针对混合专家模型进行了重大优化,实现了6到11倍的推理速度提升。同时,它简化了API,支持MoE模型的动态权重加载、量化、张量并行和PEFT,并移除了快/慢分词器的区分。


8. 谷歌研究发布ATLAS,揭示大规模多语言模型的扩展定律

谷歌研究团队发布了ATLAS项目,旨在探索大规模多语言语言模型的扩展定律。该研究提供了数据驱动的指导,帮助在模型大小与多语言数据混合之间取得平衡,为高效训练支持多种语言的模型提供了理论依据。


9. Unsloth宣布MoE训练速度提升14倍,并支持Transformers v5

Unsloth AI宣布其优化技术现在可以使混合专家模型的训练速度比v4版本快14倍,并预计未来优化将再次翻倍,达到总计30倍的加速。团队还推出了对Transformers v5的全面支持。


10. Anthropic研究揭示微调可能重新激活模型中的生物安全风险

来源:文章内容
Anthropic的一项研究论文指出,对开源模型进行微调(即使是使用前沿模型的输出),可能会解除先前安全训练所抑制的有害能力,例如生物风险。这表明模型的“拒绝”机制是脆弱的,可能被少量计算资源绕过,引发了关于双重用途技术的担忧。


🛠️ 十大工具产品要点

1. Kimi Code:Moonshot开源的Apache-2.0编码智能体

Moonshot AI开源了Kimi Code,这是一个Apache-2.0许可的编码智能体,可与常见的IDE和编辑器集成。同时发布的还有Agent SDK,允许开发者构建自定义智能体,扩展了Kimi生态系统的工具链。


2. vLLM宣布对Trinity Large和DeepSeek-OCR 2提供首日支持

高性能推理引擎vLLM宣布在发布当天即支持Arcee的Trinity Large模型和DeepSeek-OCR 2模型,确保了这些前沿模型能够被高效地部署和服务。


3. Ollama Cloud集成Kimi K2.5,提供便捷的云端体验

Ollama在其云服务中快速集成了Kimi K2.5模型,为用户提供了开箱即用的体验。Together AI和Fireworks AI也作为合作伙伴提供了对Kimi K2.5 API的访问。


4. Mistral发布Vibe 2.0,升级编码智能体功能

Mistral发布了其编码智能体Vibe的2.0版本,新增了子智能体、用户自定义智能体、技能/斜杠命令等功能,并推出了付费计划,标志着其产品化进程的深入。


5. Cursor强调语义搜索对编码智能体性能的关键提升

Cursor指出,对其代码库进行语义搜索索引能显著提升编码智能体的性能,并且为大型代码库建立索引的速度比之前快了“几个数量级”。


6. 谷歌Jules智能体引入“执行前批判”机制提升可靠性

谷歌的Jules智能体引入了一个“规划批判者”功能,这是一个在计划执行前对其进行审查的第二智能体。据称,这一机制能将任务失败率降低9.5%,从而提高了智能体工作流的可靠性。


7. Jan发布v3 Instruct 4B编码模型,在Aider基准上提升40%

来源:文章内容
Jan项目发布了v3 Instruct,这是一个40亿参数的编码模型。在Aider基准测试中,该模型取得了18分的成绩,相比其他同类模型有超过40%的性能提升,展示了其在轻量级编码辅助任务上的潜力。


8. MiniMax推出“智能体桌面”工作空间

MiniMax发布了一款名为“智能体桌面”的产品,被描述为一个比Claude Cowork更精致的AI工作空间,专注于提供高度集成的智能体办公体验。


9. Figure发布Helix 02,实现全身自主机器人控制

Figure公司发布了Helix 02,这是一个用于自主全身机器人控制的系统。结合其演示,这表明在具身智能和机器人控制领域取得了实质性进展。


10. 社区开发者构建Claude Code的“蜂群思维”多智能体系统

一位开发者构建了一个为Claude Code设计的“蜂群思维”多智能体协调系统。该系统包含7个具有特定角色的智能体,它们通过消息总线通信,并使用SQLite进行持久化记忆共享,展示了复杂多智能体工作流的实现方案。