景联文AI观察动态速递

第1期 丨 2025-12-17

生成式AI

1. OpenAI与微软:发布非约束性合作备忘录,涉及核心问题但条约未确定;预计成立超1000亿美元公益公司;面临巨大成本压力。

 

2. Utopai:前谷歌X团队创立全球首家AI原生影视工作室,两部电影项目收入1.1亿美元并锁定戛纳;突破AI视频生成难题;获好莱坞支持。

 

3. MiniMax Music 1.5:发布新一代音乐生成模型,支持4分钟歌曲创作,有四大突破;支持自定义特征;提供API适用于多种场景。

 

4. 美团AI Agent“小美:开启公测,简化点餐流程;基于自研模型,可全自动操作并记忆习惯;有局限性,待优化。

 

5. 小红书FireRedTTS-2:发布新一代对话合成模型,解决现有方案问题;训练数据多,支持多种功能;评测领先,支持多语言,已开源。

 

6. BIndexTTS2:开源零样本语音合成模型,解决行业痛点;采用新方法,误差率低;系统模块组成,支持情绪控制,有跨语言应用意义。

 

7. Meta MobileLLM-R1:发布小参数高效模型,为特定问题优化;性能佳,Token效率和性价比高。

 

8. Thinking Machines:估值120亿美元,发布首篇研究博客解决LLM推理非确定性问题,改进相关机制实现可复现推理结果,首款产品为Connection Machine

 

9. ChatGPTOpenAI宣布其正式支持MCPPlusPro用户可一句Prompt自动化操作,MCP实现标准化交互,用户可连第三方服务但无法与其他功能并用。

 

10. 微信公众号:推出腾讯混元大模型支持的智能回复功能,可学历史文章和风格,混元还将上线Roleplay模型和AI分身应用。

 

11.  Kimi:开源新中间件checkpoint - engine20秒完成万亿参数模型更新,提升强化学习效率,采用混合共置架构,支持训练和推理解耦。

 

12英伟达:发布用于3D模型生成的AI Blueprint,文本驱动,集成微服务,工作流程自动化,节省艺术家时间。

 

13百度学术:完成AI重构,推出多项功能打造一站式AI学术平台,覆盖学术全链路,收录大量文献资源。

 

14腾讯会议:联合元宝推出AI托管功能,替用户听会记录,会后可提问辅助决策。

 

前沿科技

1. “Gauss”AI Agent:三周完成陶哲轩团队18个月未完成的数学挑战;由Math公司开发;能协助数学家,团队有提升代码总量计划。

 

2. 宇树科技创始人王兴兴后悔错过AI发展,公司预计2025年底提交IPO申请,他修正数据观点,创业者拥抱AI创新。

 

报告观点

1. 红杉美国解读OpenAI推出GPT-5,有新特性;其他玩家推出新品;新AI版图重新排布。

 

2. DeepMind:只瞄准三类不可能任务;模型从专用到通用进化;目标是打造科学API”,降低科研门槛。

 

3. “强化学习之父萨顿外滩演讲称AI进入经验时代,强化学习推动转变,提出四条预测原则,认为人类智能将被超越。

 

GPT-5相关

1. GPT-5亮点 GPT-5发布后虽未达业界飞跃期望,但幻觉率大幅下降,OpenAI数据显示其出现事实错误概率比GPT-4o低约45%,比OpenAI o3低约80%,此前提升原因未公开。

 

2. 幻觉在预训练阶段不可避免OpenAI新论文《语言模型为何会产生幻觉》证明幻觉是大语言模型统计学习本质下必然且可预测的副产品。模型通过逐词预测评估句子,有理论上的是否有效IIV)判断器,但处理灰色信息时会出错,且判断错误会放大,导致生成任务出现幻觉。

 

3. 后训练未能有效抑制幻觉:后训练有校准概念,预训练会使模型自然校准但产生平原效应易致幻觉。后训练通过偏好反馈非校准模型,集中概率分布减少因不确定导致的幻觉,但增加过度自信风险。主流评估基准采用二元评分制,惩罚不确定性,奖励猜测,阻碍模型诚实回答。

 

4. GPT-5可能的杀手锏与DeepSeek R1的短板:若强化学习采用二元奖励路径,会降低模型抑制幻觉能力。如DeepSeek R1采用极端二元路径后训练,可能增加顽固型过度自信型幻觉,幻觉率高达14.3%;而使用PRMOpenAI o3幻觉率仅6.8%GPT-5可能引入Universal Verifier技术,采用非二元标准打分。

 

5. 解决幻觉的建议:论文提议后训练阶段引入带惩罚的评分机制,让模型从得分优化器变为风险评估器, 专注于真实,才可能解决幻觉问题。

 

开源项目

1、基座模型

Qwen3-Next:先进文本生成项目,含多子模型,适用于文本生成、编码等多任务,高性能且支持多场景。链接:https://sota.jiqizhixin.com/project/qwen3

POINTS-Reader:端到端文档转换视觉语言模型,基于POINTS1.5架构,支持中文和英文文档提取,性能优且无需后处理。链接:https://sota.jiqizhixin.com/project/points-reader

Tri-70B-Intermediate-CheckpointsTrillion Labs发布的韩语大规模语言模型项目,公开Tri系列中间检查点促进训练动态研究。链接:https://sota.jiqizhixin.com/project/intermediate-checkpoints

HuMo:统一人物视频生成框架,支持多模态输入,实现强大文本提示跟随和音频同步视频生成。链接:https://sota.jiqizhixin.com/project/humo

 

2. 框架平台、必备工具

uniprof:通用CPU分析工具,无需改代码或添加依赖,支持多平台和运行时分析,输出统一格式并分析性能热点。链接:https://sota.jiqizhixin.com/project/uniprof

 

3. Agent开发

Self-Improving Coding Agent:编码agent框架,通过自我改进循环优化代码库,支持多模型推理。链接:https://sota.jiqizhixin.com/project/self-improving-coding-agent

 

基座模型

SRPO:文本到图像生成模型,通过语义相对偏好优化提高图像质量,解决多步去噪计算复杂性问题,减少对离线微调依赖,在FLUX.1.dev模型基础上微调提升人类评估的图像质量。链接:https://sota.jiqizhixin.com/project/srpo - 2

 

框架平台、必备工具


AgentGym-RL:训练大语言模型agent的框架,通过多轮强化学习实现长远决策,涵盖多种场景,支持主流算法,提升开源7B规模模型表现。链接:https://sota.jiqizhixin.com/project/agentgym

ST-Raptor:处理多样化半结构化表格问答的工具,输入Excel表格和自然语言问题即可生成精确答案,无需额外微调,结合VLMHO - Tree算法,采用两阶段验证机制。链接:https://sota.jiqizhixin.com/project/st-raptor

Checkpoint Engine:大型语言模型推理引擎中更新模型权重的简单中间件,提供高效轻量级实现,有广播和点对点两种权重更新实现。链接:https://sota.jiqizhixin.com/project/checkpoint- engine

 

3. Agent开发

ROMA:元agent框架,利用递归分层结构解决复杂问题,提供并行问题解决和透明开发,开源可扩展。链接:https://sota.jiqizhixin.com/project/roma

Strix:开源的AI驱动安全测试工具,模拟黑客行为发现并验证漏洞,提供全面安全测试功能。链接:https://sota.jiqizhixin.com/project/strix

 

基座模型

ERNIE-4.5-21B-A3B-Thinking210亿总参数,每个token激活30亿参数的文本MoE模型,逻辑推理等任务表现提升,有高效工具使用和128K长上下文理解能力。链接:https://sota.jiqizhixin.com/project/ernie-3

aquif-3.5:基于GGUF格式的多语言文本生成模型,支持10种语言,专注文本生成推理等任务,适用于资源有限环境。链接:https://sota.jiqizhixin.com/project/aquif-3-5-8b-think-gguf

HunyuanImage-2.1:高效文本生成图像模型,能生成2K分辨率图像,增强文本与图像对齐能力,降低计算成本,提升图像质量。链接:https://sota.jiqizhixin.com/project/hunyuanimage-2-1


K2-Think320亿参数的开源通用推理模型,数学问题解决出色,支持文本生成,有安全评估功能,推理速度有优势。链接:https://sota.jiqizhixin.com/project/k2-think

 

2. Agent开发
MobiAgent:强大可定制的移动agent系统,提供智能化移动设备交互体验,支持安卓设备执行复杂任务,是研究开发移动agent技术的理想平台。链接:https://sota.jiqizhixin.com/project/mobiagent

 

3. 必备工具

claude-init:为中国开发者定制的零门槛AI编程环境,提供中文化体验,集成多种功能,支持免翻墙访问,一键安装即可使用。链接:https://sota.jiqizhixin.com/project/claude-init

 

B站开源IndexTTS2

2. 

突破性文本转语音系统,零样本下实现情感丰富、时长可控语音合成,采用自回归模型架构,目标是提供工业级可控性与效率,适用于多场景。链接: https://sota.jiqizhixin.com/project/indextts2

 

2. 基座模型

SpikingBrain:受大脑机制启发,集成混合高效注意力、MoE模块和脉冲编码,架构支持通用转换管 道,能用不到2%数据持续预训练,适配非NVIDIA集群框架等确保稳定性,在4M-token序列TTFT上加速超100倍,微观层面稀疏性超69%链接:https://sota.jiqizhixin.com/project/spikingbrain

MiniCPM4.1:为终端设备设计的高效大语言模型,在四个关键维度系统创新,支持深度推理和非推理模式,能在典型终端芯片上实现超5倍生成加速。链接:https://sota.jiqizhixin.com/project/minicpm4 - 1

TildeOpen LLM:开源基础语言模型,专注支持北欧和东欧少数语言,由Tilde.ai开发获欧盟资助,用LUMI超级计算机训练,超300亿参数,解决19种重点语言性能差距,采用公平分词器和课程学习方法。链接:https://sota.jiqizhixin.com/project/tildeopen - llm


3. Agent开发

Windows-Use:强大自动化agent,可在Windows GUI层与系统交互,执行多种任务,无需依赖传统计算机视觉模型,让任何大语言模型能执行计算机自动化任务。链接:https://sota.jiqizhixin.com/project/windows - use

MathModelAgent:专为数学建模设计的智能体系统,能自动完成建模任务并生成可提交论文,缩短建模比赛时间,支持多种模型和自定义模板,未来计划集成更多功能。链接:https://sota.jiqizhixin.com/project/mathmodelagent


基座模型

Kimi - K2 - Instruct - 0905Kimi K2系列最新最强版本,是先进的混合专家(MoE)语言模型,有32亿激活参数和总计1万亿参数,在公共基准测试和编程任务中性能提升显著,提供更好前端编程体验和更长上下文支持。链接:https://sota.jiqizhixin.com/project/kimi-k2

 

2. 框架平台、必备工具

FineVisionHugging Face推出的项目,通过开放数据集提升计算机视觉模型性能,用户可访问和使用各种数据集训练和优化视觉模型。链接:https://sota.jiqizhixin.com/project/finevision

UltraRAG:基于Model Context Protocol (MCP)的低代码RAG框架,由多机构联合推出,降低科研人员工程实现成本,UltraRAG 2.0降低复杂RAG系统技术门槛与学习成本。链接:https://sota.jiqizhixin.com/project/ultrarag-2-0

SceneSplat:基于高斯点云的3D场景理解项目,结合视觉语言预训练技术,通过SceneSplat - 7K数据集实现3D高斯点云语义学习,突破场景处理限制。链接:https://sota.jiqizhixin.com/project/scenesplat

EmbeddingGemmaGoogle开发的300M参数开源嵌入模型,基于Gemma 3构建,能生成文本向量表示,适合搜索和检索任务,支持100多种语言训练,适合资源有限环境部署。

 

3.  Robotics开发

SAIL-Recon:前馈式Transformer模型,通过视觉定位扩展神经场景回归实现大规模结构光,可快速精确且稳健地重建。链接:https://sota.jiqizhixin.com/project/sail-recon

 

其他重要信息

1.百度正式开源最新思考模型ERNIE-4.5-21B-A3B-Thinking。多轮测试验证显示, 该模型在文本生成、逻辑推理、知识问答等核心任务中近乎大模型性能表现。

 

特点:推理任务表现突出,涵盖逻辑、数学、科学与文本生成等;具备高效工具与函数调用能力,支持复杂任务自动化处理;支持128K长上下文理解,适用于学术科研等长文本推理场景;扩展思维长度,适合高复杂度、多步骤推理任务。

 

模型下载/点赞直达链接:https://huggingface.co/baidu/ERNIE - 4.5 - 21B - A3B - Thinking

 

2. Claude更新新功能,可将对话直接转换为Excel、文档、PPTPDF等多种格式可用文件。关键信息:文件直接生成,能直接创建和编辑多种格式文件,非仅输出代码或文本;核心技术是AnthropicClaude配备私有计算机环境,使其能独立编写和运行代码完成复杂任务;对现有AI办公工具创业公司构成威胁,或改写市场格局;Anthropic从底层模型供应商向平台级玩家转型,不止提供API;目前作为预览功能向MaxTeamEnterprise付费用户开放,Pro用户未来几周获得权限。

 

功能优势:从对话交付革命,可将指令转化为功能完整、格式规范办公文档,能处理数据并生成报告等;跨越格式的自由,有强大跨格式处理能力,整合多个独立工具工作流;Claude专属计算机,私有计算机环境让Claude大脑进化为执行者,抹平想法执行鸿沟。

 

战略意义:揭示Anthropic宏大战略,将模型+ 应用模式复制到知识工作领域,构建生态闭环,重塑工作与创造范式。

 

3. Kimi K2模型更新 :月之暗面发布Kimi K2模型最新版本(0905),实现深刻能力进化,从应答者转型 为执行者

 

关键能力提升:智能体编码在SWE-bench等基准中表现卓越,可完成规划、编码到调试全流程;上下文窗口从128K翻倍至256K,利于处理复杂长线任务;提供60-100 Token/s高速版API,兼容Anthropic API,降低迁移成本;引入MuonClip优化器稳定训练,通用强化学习处理复杂无明确答案任务;基础与指令微调模型均开源,方便开发者部署使用。

 

开发者利好:智能体编码能力增强,前端代码生成质量提升;高速版API带来流畅、高效、经济的开发体验。

 

基准测试表现:在SWE-bench Verified等测试中表现突出,在多个维度抗衡顶级闭源模型,部分超越开源模型。

 

能力来源:MuonClip优化器在Muon优化器基础上引入qk - clip技术,避免训练梯度爆炸;数据合成与强化学习构建模拟系统生成数据,通用强化学习引入自我评判机制。 

 

实践验证:在薪资数据分析”“JavaScript创建我的世界等任务中展现强大智能体能力。

 

上手途径:直接体验,访问kimi.com或下载应用免费使用;API调用,开放平台提供兼容接口,便于应用迁移;私有化部署,模型权重可在多平台下载,支持多种推理框架,已有多家编程工具集成,云服务厂商完成部署。

 

4. 本周国产大模型持续开源,涉及阿里Qwen-Next、面壁智能MiniCPM 4.1、腾讯HunyuanImage-2.1BIndexTTS2、百度ERNIE-4.5-21B- A3B-Thinking等。

 

各模型亮点:

阿里Qwen - Next发布Qwen3-Next架构,开源Qwen3-Next-80B-A3B系列模型,推理吞吐提升10倍,训练成本降至1/10256K上下文性能媲美235B旗舰,采用混合注意力等技术,兼顾性能与效率;

 

面壁智能MiniCPM 4.1是首个原生稀疏架构8B参数深思考模型,代码数学推理速度提升3倍,支持长短文本双频换挡,端侧部署友好;

 

腾讯HunyuanImage - 2.1是开源文生图模型,支持原生2K生图,性能提升,采用17B参数单/双流DiT架构,引入OCRIP RAG专家模型,还开源文本改写模型PromptEnhancer

 

百度ERNIE-4.5-21B-A3B-Thinking有逻辑等基准跃升、高效调用工具、128K长上下文理解强化三大升级;

 

BIndexTTS2以双模式自回归框架突破时长不可控瓶颈,解耦音色与情感,引入GPT潜码与三阶段训练,高情感清晰度提升。

 

各模型开源链接:

阿里Qwen3 - Next - 80B - A3B系列:https : //hf - mirror.com/Qwen/Qwen3 - Next - 80B - A3B - Thinking https :/ /hf - mirror.com/Qwen/Qwen3 - Next - 80B - A3B - Instruct

 

面壁智能MiniCPM 4.1https://hf - mirr o r. c o m / o p e nb m b / M i n i C P M 4 . 1 - 8B

 

腾讯 H u n y u a n I m ag e - 2 . 1 http s : / / h f - mirror.com/tencent/HunyuanImage - 2.1

 

百度ERNIE-4.5-21B-A3B-Thinkinghttps://hf-mirror.com/baidu/ERNIE-4.5-21B-A3B -Thinking

BIndexTTS2https://github.com/index -tts/index - tts https://hf-mirror.com/IndexTeam/IndexTTS-2https://arxiv.org/pdf/2506.21619

 

5. 16家研究机构联合发表的100页综述首次系统提出Agentic RL(代理式强化学习)范式。

关键要点:

Agentic RL 定义:把大语言模型(LLM)从一次性文本生成器升级为可在动态环境中持续感知、规划、行动、反思的自主智能体,并给出统一理论框架、能力图谱、任务全景与开源资源大盘点。 

 

范式迁移对比:传统LLM - RL是单轮问答、静态prompt → 静态回答、reward只评答得好不好、退化MDPT = 1);Agentic RL是多轮交互、动态环境状态 动作新状态、reward还评做得对不对、标准POMDPT > 1)。

 

理论框架:用POMDP“LLMpolicy”,给出形式化七元组⟨ S,A,P,R,O,γ⟩ A = A_text ∪ A_actionO为多模态信号,R支持稀疏或稠密奖励。

 

RL对六大模块的作用

Planning外部搜索(MCTS)或内部策略梯度直接优化计划,代表工作有LATSAdaPlan

 

Tool Use从模仿ReAct → 奖励驱动TIRTool-Integrated Reasoning),代表工作有ToolRLReToolOpenAI o3

 

Memory把静态RAG升级为“RL决定何时写//,代表工作有Memory- R1MemAgent

 

Self - Improvement自生成critique → 在线DPO/GRPO更新,代表工作有ReflexionR-ZeroAbsolute ZeroReasoning慢思维长链推理由过程奖励塑形,代表工作有DeepSeek-R1o1/o3

 

Perception视觉/音频/3D任务统一用GRPO优化,代表工作有Vision- R1SVQA-R1EchoInk-R1 

 

任务视角:呈现十大战场全景图,涉及搜索与研究、代码、数学、GUI、视觉、具身、多智能体等领域,介绍关键趋势与开源亮点。

 

开源资料:汇总50+环境与基准,15RL框架;不同类型推荐上手资源,Web任务(WebArena等)、代码任务(SWE-bench等)、多智能体(SMAC-Exp等)、框架(OpenRLHF等)。 

 

相关链接:论文链接https://arxiv.org/pdf/2509.02547;论文标题The Landscape of AgenticR e i n f o r c e m e n t L e a r n i n g f o r L L M s : A S u r v e y ; 开 源 论 文 集 合 链 接h t t p s : / / g i t h u b . c o m / x h y u m ir a c l e / A w e s o m e - A g e n t i c L L M - R L - P a p e r s

 

6. OpenAICTO所在公司Thinking Machines Lab发布研究《战胜LLM推理中的不确定性》,揭示LLM推理不确定性根源并提出解决方案,实现推理阶段不确定性降为0%

 

关键信息:LLM推理不确定性现象为多次向ChatGPT问同一问题结果不同,即便将温度调低至0LLM API实践中仍不确定;

 

非确定性根源常被误解为源于GPU并行性和浮点运算非结合性,但现代GPU矩阵乘法操作通常结果确定,真正原因是批处理大小变化,多数常见matmul实现逐次确定性但非批次不变,服务器负载决定内核运行批次大小,使LLM推理对单个用户呈非确定性

 

解决方案是实现批处理不变性,RMSNorm始终采用rowblock”策略,小batch时空跑SM也不拆reductionMatMul禁用Split-K/Stream-K,固定tile尺寸(如128×128),牺牲<20%峰值TFLOPS换全程bit一致,Attention采用KV-Cache布局+固定split - size策略,保持批量不变性;

 

实验结果是利用vLLMFlexAttention后端及torch.Library演示确定性推理,可在指定链接找到批不变内核库及vLLM示例,使用Qwen/Qwen3- 235B-A22B-Instruct-2507测试,未启用批不变内核生成80个不同完成语句,启用后1000个完成结果相同。