ai_news_summary_2026-05-28

AINews - 2026-05-28

原文链接

📰 十大AI新闻要点

1. “Harness工程”成为编码Agent的核心差异化因素

多位专家一致认为，当前Agent的制胜关键在于 模型 + Harness + 评估循环，而非仅仅依赖更强的基座模型。DeepSeek正在组建专门的Harness团队，以闭环模型输出、运行时反馈、验证和修正。Google的Gemini Managed Agents指南将Agent基础设施封装为单一API调用，而LangChain和dair.ai也正式化了这一堆栈，核心包括：上下文治理、可信记忆、动态技能路由。

2. DeepSWE基准测试：更贴近真实开发者体验

新推出的Agent编码基准测试DeepSWE获得了从业者的强烈认可，被誉为“首个与实际使用这些模型编码的感觉一致的代码基准”。它在顶尖模型间创造了比公开SWE排行榜更大的区分度。同时，Qwen3.7 Max在Code Arena: Frontend上排名第4，与Claude Opus 4.6在Agentic Web开发任务上大致持平。

3. Claude Mythos解决埃尔德什难题#90，揭示模型能力“过剩”

一位数学家报告称，Claude Mythos成功解决了埃尔德什难题#90，并且常常收敛到与OpenAI早期路径不同的、更简洁的证明路径。微软研究院的Sébastien Bubeck指出，在合适的Harness下，Mythos和GPT-5.5都能复现内部模型一次完成的任务，这意味着标准聊天界面下隐藏着大量未被发掘的潜在能力。

4. “语言模型需要睡眠”：长上下文记忆的新方案

一篇名为《Language Models Need Sleep》的论文获得了显著关注。其机制是引入一个类似睡眠的巩固阶段，将近期上下文转换为持久的快速权重，然后清除KV缓存，将计算转移到离线阶段，同时保持唤醒时的低延迟。这被视为处理长轨迹Agent时，应对不断增长的KV缓存的一种替代方案。

5. DeepSeek推进102.9亿美元融资，坚持开源路线

据报道，DeepSeek正在推进一笔102.9亿美元的融资，创始人梁文峰重申了以AGI为导向的路线图，并承诺继续发布/开源AI模型，而非优先考虑短期商业化。评论认为，这是一个战略赌注，即模型优势的半衰期很短，开源研究比封闭的人才/模型护城河更能加速迭代。

6. OpenRouter完成1.13亿美元B轮融资，周Token量增长5倍

模型路由和多模型基础设施平台OpenRouter宣布完成1.13亿美元的B轮融资，并透露其周Token量在六个月内从5万亿增长到25万亿。这标志着路由和多模型基础设施已被视为一个持久的平台层。

7. 华为“τ Scaling”论文：被视为工程路线图而非新定律

对华为“τ Scaling”论文的详细解读认为，它应被解读为一份战略宣言/白皮书。其核心提议是将时间常数τ，而非工艺节点，作为跨器件、芯片和数据中心规模的统一度量。最具体的声明涉及未来麒麟芯片上的LogicFolding，包括+55%密度、+41%能效和+13%频率，但分析指出这些数据未经验证。

8. vLLM合并Rust前端，吞吐量提升5倍

vLLM项目合并了一个Rust前端，作为Python API服务器的即插即用替代方案。早期数据显示，在处理预处理密集型工作负载时，单进程吞吐量达到约837 req/s，而Python版本仅为约162 req/s。这对于遇到CPU/API服务器瓶颈的高吞吐量服务场景意义重大。

9. Anthropic推出Claude Code安全插件，减少30-40%安全评论

Anthropic为Claude Code发布了一个安全指导插件。内部使用数据显示，该插件使与安全相关的PR评论减少了**30-40%**。这是一个将具体产品发布与内部度量指标相结合的典型案例。

10. Epoch AI警告：推理算力可能面临短缺

Epoch AI估计，AI推理计算需求增长可能快于服务能力，尤其是在长上下文工作负载下。其粗略模型表明，虽然当前全球Blackwell供应在有利假设下可以满足今日需求，但长上下文会严重降低吞吐量，且需求增长可能已经超过供应增长。

🛠️ 十大工具产品要点

1. Anthropic Claude Code /workflows 功能

Claude Code短暂曝光了一个名为/workflows的新系统，旨在用代码驱动的workflow.js控制器取代基于LLM的编排器。其特点包括：结构化阶段、并行扇出、条件/循环/预算、重试、后台执行，并通过在阶段间传递子Agent输出来减少上下文窗口的“Token税”。该功能随后被从更新日志中移除。

2. Anthropic推出13+免费AI课程（含证书）

Anthropic通过其Skilljar平台推出了一个免费的官方培训目录，涵盖Claude、Claude Code、Claude API、MCP/Agent工作流等主题，并颁发证书。其中，MCP和高级MCP模块因其对STDIO和StreamableHTTP传输协议的实用讲解而受到特别推荐。

3. W&B推出MCP服务器，让编码Agent检查实验

Weights & Biases (W&B) 发布了一个MCP服务器，允许编码Agent检查实验和训练运行。该服务器采用以Schema为先的重新设计，旨在避免上下文窗口爆炸，使Agent能更高效地与W&B平台交互。

4. Unsloth支持在本地UI中运行GPT、Claude等API

Unsloth在其本地UI中增加了对运行GPT、Claude等外部API的支持，包括提示缓存和代码执行功能。这使得用户可以在一个统一的界面中，结合本地模型和云端API进行工作。

5. Cloudflare重启初创企业计划，提供最高35万美元积分

Cloudflare重新启动了其初创企业计划，为符合条件的初创公司提供高达35万美元的云服务积分。这对于依赖Cloudflare基础设施的AI初创企业来说是一个重要的成本节约机会。

6. PrismML发布Bonsai Image 4B，含1-bit和Ternary变体

PrismML发布了Bonsai Image 4B模型，其中包括1-bit和Ternary变体，旨在本地笔记本电脑和手机上运行。后续消息指出，该模型可在浏览器中本地执行，占用空间约3GB。

7. Microsoft MAI-Image-2.5在Image Arena排名第三

微软的MAI-Image-2.5模型在Image Arena排行榜上首次亮相即获得第三名，打破了此前由OpenAI和Google主导的前五名俱乐部。Arena报告其得分为1,254。

8. Tencent发布Z-Image 6B，无需VAE的像素空间生成

腾讯发布了Z-Image 6B模型，其关键技术特点是无需VAE，直接在像素空间进行图像生成，并支持1k分辨率。这代表了图像生成架构中一个值得关注的趋势。

9. Qwen3.6 35B A3B在12GB显存上实现110 tok/s

用户报告称，使用ik_llama.cpp和IQ4_XS量化，在RTX 4070 Super 12GB显卡上运行Qwen3.6-35B-A3B MTP模型，实现了110.24 tok/s的推理速度，比上游llama.cpp快**23%**。这展示了在消费级硬件上运行大型MoE模型的可能性。

10. Open Source QUEST模型：用于长周期事实搜索的深度研究Agent

一个名为QUEST的开放模型系列（2B–35B）被发布，专门用于长周期事实搜索、引用溯源和报告合成，定位为通用型深度研究Agent。这为开源社区提供了一个强大的研究工具。