ai_news_summary_2025-12-10

AINews - 2025-12-10

原文链接

📰 十大AI新闻要点

1. Hugging Face发布Claude Code技能,实现自然语言指令微调LLM

Hugging Face发布了一个Claude Code “技能”,允许用户用自然语言(如“在open-r1/codeforces-cots数据集上微调Qwen3-0.6B”)指定训练任务。该智能体将自动完成其余工作:验证数据集、选择GPU类型、启动HF Jobs、监控进度,并将检查点/模型发布到Hub。支持对约0.5B到70B的模型进行SFT、DPO和GRPO微调,并提供GGUF导出和多阶段流水线等选项。早期报告称小型运行成本可低至约0.30美元。
来源:https://twitter.com/LiorOnAI/status/1997754848255807874


2. 智谱AI发布新一代多模态大模型GLM-4.6V系列

智谱AI发布了新的视觉语言模型GLM-4.6V和GLM-4.6V-Flash。GLM-4.6V是一个总参数量106B、激活参数量约12B的MoE模型;Flash是一个9B的密集模型变体,针对低延迟和本地部署进行了优化。两者均支持128K上下文长度和原生多模态函数调用。API定价为每百万tokens输入0.6美元/输出0.9美元,Flash版本免费。模型权重已在Hugging Face上发布,vLLM、MLX-VLM等平台已提供支持。
来源:https://twitter.com/Zai_org/status/1998003287216517345


3. Google发布Miras框架,探索后Transformer序列架构

Google的一篇研究论文将Transformer和RNN重新定义为联想记忆系统,并将“遗忘”视为保留正则化,从而引入了Moneta、Yaad、Memora等新架构。作者报告称,在语言建模、推理、长上下文扩展和“大海捞针”召回等任务上,这些新架构相比Transformer、Mamba2、DeltaNet及其混合模型取得了胜利,在长上下文检索任务上获得了高达约20%的性能提升。
来源:https://twitter.com/TheTuringPost/status/1997808277116338266


4. AxiomProver的自主Lean系统快速解决2025年普特南数学竞赛问题

AxiomProver报告称,其自主Lean系统在2025年普特南数学竞赛结束后数小时内解决了12道题中的9道。他们表示,这一表现足以在去年的成绩榜上名列前茅。该系统强调可验证性和混合形式化/非形式化推理流程。
来源:https://twitter.com/axiommathai/status/1997767850279440715


5. 报告称OpenAI大量采购DRAM,引发内存价格飙升担忧

据报告,OpenAI已收购全球DRAM晶圆产量的40%,此举并非立即使用,而是为了限制竞争对手的获取,导致内存价格飙升。这一战略举措被认为对市场动态产生了重大影响。
来源:文章内容(引用自Moore‘s Law is Dead博客,但原文未提供直接链接)


6. 空间机器人公司GITAI展示自主机器人组装通信塔能力

空间机器人初创公司GITAI展示了其自主机器人“尺蠖”和漫游车在模拟月球环境中组装5米高通信塔的能力。该技术旨在将太空劳动力成本降低100倍,并消除舱外活动风险,对于火星或月球上人类殖民前的基建至关重要。GITAI已被选入DARPA的LunA-10月球架构项目。
来源:https://www.reddit.com/r/singularity/comments/1ph7fuw/this_is_how_we_build_on_mars_gitai_autonomous/


7. LangChain发布长周期智能体评估模式与基准测试结果

LangChain发布了评估长周期运行智能体(规划、文件系统、子智能体、提示)的实用模式,并在Terminal Bench 2.0上发布了智能体CLI基准测试结果(平均得分约42.65%)。他们还推出了动态上下文压缩触发器(例如,在达到85%上下文窗口时进行总结,保留10%),并发布了关于智能体系统可观测性、评估和部署的LangSmith视频系列。
来源:https://twitter.com/LangChainAI/status/1997843687376904400


8. SGLang创建者推出新基础设施公司RadixArk

来自SGLang生态系统的新基础设施初创公司RadixArk宣布成立,其目标是“让前沿级别的AI基础设施变得开放和可访问”。该公司强调将调度、编译器、服务和训练流水线作为共享基础设施,而非每个组织重复实现。
来源:https://twitter.com/ying11231/status/1998079551369593222


9. 研究揭示当前AI模型在日常任务中的知识落地能力仍然薄弱

ACE基准测试针对日常任务(购物/食品/游戏/DIY),动态检查基于网络来源的知识落地情况。领先模型的得分不高(GPT-5 High=56.1%, o3 Pro=55.2%;购物任务最高为45.4%)。一些模型在链接准确性上得分为负(例如Gemini 3 Pro为-54% “提供了链接”)。
来源:https://twitter.com/omarsar0/status/1998039629556256995


10. OpenAI的Sora 2视频生成模型在7个国家推出,禁止使用VPN绕过区域限制

OpenAI在7个特定国家发布了Sora 2视频生成模型,并警告使用VPN绕过这些区域限制将违反服务条款,可能导致账户立即被封禁。这标志着随着视频生成能力的推出,OpenAI采取了更严格的区域执行策略。
来源:https://help.openai.com/en/articles/12461230-sora-app-and-sora-2-supported-countries


🛠️ 十大工具产品要点

1. Hugging Face Claude Code技能:自动化LLM训练流水线

该工具将数据集验证、GPU选择、作业启动、进度监控和模型发布等一系列定制化流程,整合为一个由HF Jobs + Hub驱动的、可重复、可审计的智能体工作流。支持SFT、DPO、GRPO等多种微调方法,并能导出GGUF格式。
来源:https://huggingface.co/blog/hf-skills-training


2. GLM-4.6V-Flash:面向本地部署的轻量级多模态模型

这是一个9B参数的密集模型,针对低延迟和本地部署进行了优化。支持128K上下文和原生多模态函数调用,在类似尺寸的模型中实现了视觉理解的SOTA性能。API免费,权重已在Hugging Face开源。
来源:https://huggingface.co/zai-org/GLM-4.6V-Flash


3. Jina-VLM (2B):专注于图表、文档的紧凑型多语言VLM

一个紧凑的2B参数多语言视觉语言模型,专注于图表、场景文本和文档理解。Jina声称其在八个VQA基准测试中平均得分72.3,在MMMB(78.8)和多语言MMBench(74.3)上达到同类最佳,是开源2B VLM中的SOTA。
来源:https://twitter.com/JinaAI_/status/1997926488843190481


4. LangChain动态上下文压缩触发器

LangChain推出的新功能,允许在智能体运行过程中动态触发上下文压缩。例如,可以设置在上下文窗口使用率达到85%时自动进行总结,并保留10%的关键信息,以优化长对话中的token使用和性能。
来源:https://twitter.com/sydneyrunkle/status/1998011509482647676


5. OpenRouter Body Builder API:简化多模型智能体创建

OpenRouter发布了一个免费的Body Builder API,旨在帮助开发者轻松创建多模型智能体。该API被描述为同类中的首创,通过其文档提供了详细的创建指南。
来源:https://openrouter.ai/docs/guides/features/routers/body-builder


6. Qdrant ACORN:无需特定索引的过滤向量搜索召回优化

Qdrant的ACORN技术改善了带过滤条件的向量搜索的召回率,而无需为特定谓词建立索引。这提高了在复杂过滤条件下进行向量检索的效率和准确性。
来源:https://twitter.com/qdrant_engine/status/1997939453965336741


7. Turbopuffer:提升异步索引下的强一致性WAL扫描速度

向量数据库Turbopuffer将其预写式日志的扫描速度提高了一倍,从而在异步索引场景下提供了更强的数据一致性保证。
来源:https://twitter.com/turbopuffer/status/1998058954149208096


8. Weaviate Multi2Vec 1.5:新增多模态嵌入模型支持

Weaviate的Multi2Vec模块更新至1.5版本,新增了对MetaCLIP2、ModernVBERT等嵌入模型的支持,并增加了对NVIDIA Jetson平台的支持,扩展了其多模态向量化能力。
来源:https://twitter.com/weaviate_io/status/1998060177501614130


9. NVIDIA CUDA 13.1引入CUDA Tile编程模型

NVIDIA发布的CUDA 13.1引入了CUDA Tile,这是一种新的编程模型,它将线程管理抽象为高级数据“块”,简化了内核开发,使开发者能更专注于数据操作而非底层线程调度。
来源:https://developer.nvidia.com/blog/nvidia-cuda-13-1-powers-next-gen-gpu-programming-with-nvidia-cuda-tile-and-performance-gains


10. DSPy TOON适配器:优化提示token计数

社区成员为提示优化框架DSPy发布了一个TOON适配器,旨在优化提示中的token数量。不过,有报告称其在处理嵌套模式时相比BAML等工具可能存在困难。
来源:https://github.com/Archelunch/dspy-toon