景联文AI观察动态速递

生成式AI

1. OpenAI与微软：发布非约束性合作备忘录，涉及核心问题但条约未确定；预计成立超1000亿美元公益公司；面临巨大成本压力。

2. Utopai：前谷歌X团队创立全球首家AI原生影视工作室，两部电影项目收入1.1亿美元并锁定戛纳；突破AI视频生成难题；获好莱坞支持。

3. MiniMax Music 1.5：发布新一代音乐生成模型，支持4分钟歌曲创作，有四大突破；支持自定义特征；提供API适用于多种场景。

4. 美团AI Agent“小美”：开启公测，简化点餐流程；基于自研模型，可全自动操作并记忆习惯；有局限性，待优化。

5. 小红书FireRedTTS-2：发布新一代对话合成模型，解决现有方案问题；训练数据多，支持多种功能；评测领先，支持多语言，已开源。

6. B站IndexTTS2：开源零样本语音合成模型，解决行业痛点；采用新方法，误差率低；系统模块组成，支持情绪控制，有跨语言应用意义。

7. Meta MobileLLM-R1：发布小参数高效模型，为特定问题优化；性能佳，Token效率和性价比高。

8. Thinking Machines：估值120亿美元，发布首篇研究博客解决LLM推理非确定性问题，改进相关机制实现可复现推理结果，首款产品为Connection Machine。

9. ChatGPT：OpenAI宣布其正式支持MCP，Plus和Pro用户可一句Prompt自动化操作，MCP实现标准化交互，用户可连第三方服务但无法与其他功能并用。

10. 微信公众号：推出腾讯混元大模型支持的“智能回复”功能，可学历史文章和风格，混元还将上线Roleplay模型和AI分身应用。

11. Kimi：开源新中间件checkpoint - engine，20秒完成万亿参数模型更新，提升强化学习效率，采用混合共置架构，支持训练和推理解耦。

12．英伟达：发布用于3D模型生成的AI Blueprint，文本驱动，集成微服务，工作流程自动化，节省艺术家时间。

13．百度学术：完成AI重构，推出多项功能打造一站式AI学术平台，覆盖学术全链路，收录大量文献资源。

14．腾讯会议：联合元宝推出AI托管功能，替用户听会记录，会后可提问辅助决策。

前沿科技

1. “Gauss”AI Agent：三周完成陶哲轩团队18个月未完成的数学挑战；由Math公司开发；能协助数学家，团队有提升代码总量计划。

2. 宇树科技创始人王兴兴后悔错过AI发展，公司预计2025年底提交IPO申请，他修正数据观点，创业者拥抱AI创新。

报告观点

1. 红杉美国解读：OpenAI推出GPT-5，有新特性；其他玩家推出新品；新AI版图重新排布。

2. DeepMind：只瞄准三类“不可能任务”；模型从专用到通用进化；目标是打造“科学API”，降低科研门槛。

3. “强化学习之父”萨顿外滩演讲称AI进入“经验时代”，强化学习推动转变，提出四条预测原则，认为人类智能将被超越。

GPT-5相关

1. GPT-5亮点 ：GPT-5发布后虽未达业界“飞跃”期望，但幻觉率大幅下降，OpenAI数据显示其出现事实错误概率比GPT-4o低约45%，比OpenAI o3低约80%，此前提升原因未公开。

2. 幻觉在预训练阶段不可避免：OpenAI新论文《语言模型为何会产生幻觉》证明“幻觉”是大语言模型统计学习本质下必然且可预测的副产品。模型通过逐词预测评估句子，有理论上的“是否有效”（IIV）判断器，但处理灰色信息时会出错，且判断错误会放大，导致生成任务出现幻觉。

3. 后训练未能有效抑制幻觉：后训练有校准概念，预训练会使模型自然校准但产生平原效应易致幻觉。后训练通过偏好反馈“非校准”模型，集中概率分布减少因不确定导致的幻觉，但增加过度自信风险。主流评估基准采用“二元评分制”，惩罚不确定性，奖励猜测，阻碍模型诚实回答。

4. GPT-5可能的杀手锏与DeepSeek R1的短板：若强化学习采用二元奖励路径，会降低模型抑制幻觉能力。如DeepSeek R1采用极端二元路径后训练，可能增加“顽固型”或“过度自信型”幻觉，幻觉率高达14.3%；而使用PRM的OpenAI o3幻觉率仅6.8%。GPT-5可能引入Universal Verifier技术，采用非二元标准打分。

5. 解决幻觉的建议：论文提议后训练阶段引入带惩罚的评分机制，让模型从“得分优化器”变为“风险评估器”，专注于真实，才可能解决幻觉问题。

开源项目

1、基座模型

Qwen3-Next：先进文本生成项目，含多子模型，适用于文本生成、编码等多任务，高性能且支持多场景。链接：https://sota.jiqizhixin.com/project/qwen3

POINTS-Reader：端到端文档转换视觉语言模型，基于POINTS1.5架构，支持中文和英文文档提取，性能优且无需后处理。链接：https://sota.jiqizhixin.com/project/points-reader

Tri-70B-Intermediate-Checkpoints：Trillion Labs发布的韩语大规模语言模型项目，公开Tri系列中间检查点促进训练动态研究。链接：https://sota.jiqizhixin.com/project/intermediate-checkpoints

HuMo：统一人物视频生成框架，支持多模态输入，实现强大文本提示跟随和音频同步视频生成。链接：https://sota.jiqizhixin.com/project/humo

2. 框架平台、必备工具

uniprof：通用CPU分析工具，无需改代码或添加依赖，支持多平台和运行时分析，输出统一格式并分析性能热点。链接：https://sota.jiqizhixin.com/project/uniprof

3. Agent开发

Self-Improving Coding Agent：编码agent框架，通过自我改进循环优化代码库，支持多模型推理。链接：https://sota.jiqizhixin.com/project/self-improving-coding-agent

基座模型

SRPO：文本到图像生成模型，通过语义相对偏好优化提高图像质量，解决多步去噪计算复杂性问题，减少对离线微调依赖，在FLUX.1.dev模型基础上微调提升人类评估的图像质量。链接：https://sota.jiqizhixin.com/project/srpo - 2

框架平台、必备工具

AgentGym-RL：训练大语言模型agent的框架，通过多轮强化学习实现长远决策，涵盖多种场景，支持主流算法，提升开源7B规模模型表现。链接：https://sota.jiqizhixin.com/project/agentgym

ST-Raptor：处理多样化半结构化表格问答的工具，输入Excel表格和自然语言问题即可生成精确答案，无需额外微调，结合VLM和HO - Tree算法，采用两阶段验证机制。链接：https://sota.jiqizhixin.com/project/st-raptor

Checkpoint Engine：大型语言模型推理引擎中更新模型权重的简单中间件，提供高效轻量级实现，有广播和点对点两种权重更新实现。链接：https://sota.jiqizhixin.com/project/checkpoint- engine

3. Agent开发

ROMA：元agent框架，利用递归分层结构解决复杂问题，提供并行问题解决和透明开发，开源可扩展。链接：https://sota.jiqizhixin.com/project/roma

Strix：开源的AI驱动安全测试工具，模拟黑客行为发现并验证漏洞，提供全面安全测试功能。链接：https://sota.jiqizhixin.com/project/strix

基座模型

ERNIE-4.5-21B-A3B-Thinking：210亿总参数，每个token激活30亿参数的文本MoE模型，逻辑推理等任务表现提升，有高效工具使用和128K长上下文理解能力。链接：https://sota.jiqizhixin.com/project/ernie-3

aquif-3.5：基于GGUF格式的多语言文本生成模型，支持10种语言，专注文本生成推理等任务，适用于资源有限环境。链接：https://sota.jiqizhixin.com/project/aquif-3-5-8b-think-gguf

HunyuanImage-2.1：高效文本生成图像模型，能生成2K分辨率图像，增强文本与图像对齐能力，降低计算成本，提升图像质量。链接：https://sota.jiqizhixin.com/project/hunyuanimage-2-1

K2-Think：320亿参数的开源通用推理模型，数学问题解决出色，支持文本生成，有安全评估功能，推理速度有优势。链接：https://sota.jiqizhixin.com/project/k2-think

2. Agent开发
MobiAgent：强大可定制的移动agent系统，提供智能化移动设备交互体验，支持安卓设备执行复杂任务，是研究开发移动agent技术的理想平台。链接：https://sota.jiqizhixin.com/project/mobiagent

3. 必备工具

claude-init：为中国开发者定制的零门槛AI编程环境，提供中文化体验，集成多种功能，支持免翻墙访问，一键安装即可使用。链接：https://sota.jiqizhixin.com/project/claude-init

B站开源IndexTTS2

突破性文本转语音系统，零样本下实现情感丰富、时长可控语音合成，采用自回归模型架构，目标是提供工业级可控性与效率，适用于多场景。链接： https://sota.jiqizhixin.com/project/indextts2

2. 基座模型

SpikingBrain：受大脑机制启发，集成混合高效注意力、MoE模块和脉冲编码，架构支持通用转换管道，能用不到2%数据持续预训练，适配非NVIDIA集群框架等确保稳定性，在4M-token序列TTFT上加速超100倍，微观层面稀疏性超69%。链接：https://sota.jiqizhixin.com/project/spikingbrain

MiniCPM4.1：为终端设备设计的高效大语言模型，在四个关键维度系统创新，支持深度推理和非推理模式，能在典型终端芯片上实现超5倍生成加速。链接：https://sota.jiqizhixin.com/project/minicpm4 - 1

TildeOpen LLM：开源基础语言模型，专注支持北欧和东欧少数语言，由Tilde.ai开发获欧盟资助，用LUMI超级计算机训练，超300亿参数，解决19种重点语言性能差距，采用公平分词器和课程学习方法。链接：https://sota.jiqizhixin.com/project/tildeopen - llm

3. Agent开发

Windows-Use：强大自动化agent，可在Windows GUI层与系统交互，执行多种任务，无需依赖传统计算机视觉模型，让任何大语言模型能执行计算机自动化任务。链接：https://sota.jiqizhixin.com/project/windows - use

MathModelAgent：专为数学建模设计的智能体系统，能自动完成建模任务并生成可提交论文，缩短建模比赛时间，支持多种模型和自定义模板，未来计划集成更多功能。链接：https://sota.jiqizhixin.com/project/mathmodelagent

基座模型

Kimi - K2 - Instruct - 0905：Kimi K2系列最新最强版本，是先进的混合专家（MoE）语言模型，有32亿激活参数和总计1万亿参数，在公共基准测试和编程任务中性能提升显著，提供更好前端编程体验和更长上下文支持。链接：https://sota.jiqizhixin.com/project/kimi-k2

2. 框架平台、必备工具

FineVision：Hugging Face推出的项目，通过开放数据集提升计算机视觉模型性能，用户可访问和使用各种数据集训练和优化视觉模型。链接：https://sota.jiqizhixin.com/project/finevision

UltraRAG：基于Model Context Protocol (MCP)的低代码RAG框架，由多机构联合推出，降低科研人员工程实现成本，UltraRAG 2.0降低复杂RAG系统技术门槛与学习成本。链接：https://sota.jiqizhixin.com/project/ultrarag-2-0

SceneSplat：基于高斯点云的3D场景理解项目，结合视觉语言预训练技术，通过SceneSplat - 7K数据集实现3D高斯点云语义学习，突破场景处理限制。链接：https://sota.jiqizhixin.com/project/scenesplat

EmbeddingGemma：Google开发的300M参数开源嵌入模型，基于Gemma 3构建，能生成文本向量表示，适合搜索和检索任务，支持100多种语言训练，适合资源有限环境部署。

3. Robotics开发

SAIL-Recon：前馈式Transformer模型，通过视觉定位扩展神经场景回归实现大规模结构光，可快速精确且稳健地重建。链接：https://sota.jiqizhixin.com/project/sail-recon

其他重要信息

1.百度正式开源最新思考模型ERNIE-4.5-21B-A3B-Thinking。多轮测试验证显示，该模型在文本生成、逻辑推理、知识问答等核心任务中近乎大模型性能表现。

特点：推理任务表现突出，涵盖逻辑、数学、科学与文本生成等；具备高效工具与函数调用能力，支持复杂任务自动化处理；支持128K长上下文理解，适用于学术科研等长文本推理场景；扩展思维长度，适合高复杂度、多步骤推理任务。

模型下载/点赞直达链接：https://huggingface.co/baidu/ERNIE - 4.5 - 21B - A3B - Thinking

2. Claude更新新功能，可将对话直接转换为Excel、文档、PPT和PDF等多种格式可用文件。关键信息：文件直接生成，能直接创建和编辑多种格式文件，非仅输出代码或文本；核心技术是Anthropic为Claude配备私有计算机环境，使其能独立编写和运行代码完成复杂任务；对现有AI办公工具创业公司构成威胁，或改写市场格局；Anthropic从底层模型供应商向平台级玩家转型，不止提供API；目前作为预览功能向Max、Team和Enterprise付费用户开放，Pro用户未来几周获得权限。

功能优势：从“对话”到“交付”革命，可将指令转化为功能完整、格式规范办公文档，能处理数据并生成报告等；跨越格式的自由，有强大跨格式处理能力，整合多个独立工具工作流；Claude的“专属计算机”，私有计算机环境让Claude从“大脑”进化为“执行者”，抹平“想法”与“执行”鸿沟。

战略意义：揭示Anthropic宏大战略，将“模型+ 应用”模式复制到知识工作领域，构建生态闭环，重塑工作与创造范式。

3. Kimi K2模型更新 ：月之暗面发布Kimi K2模型最新版本（0905），实现深刻能力进化，从“应答者”转型为“执行者”。

关键能力提升：智能体编码在SWE-bench等基准中表现卓越，可完成规划、编码到调试全流程；上下文窗口从128K翻倍至256K，利于处理复杂长线任务；提供60-100 Token/s高速版API，兼容Anthropic API，降低迁移成本；引入MuonClip优化器稳定训练，通用强化学习处理复杂无明确答案任务；基础与指令微调模型均开源，方便开发者部署使用。

开发者利好：智能体编码能力增强，前端代码生成质量提升；高速版API带来流畅、高效、经济的开发体验。

基准测试表现：在SWE-bench Verified等测试中表现突出，在多个维度抗衡顶级闭源模型，部分超越开源模型。

能力来源：MuonClip优化器在Muon优化器基础上引入qk - clip技术，避免训练梯度爆炸；数据合成与强化学习构建模拟系统生成数据，通用强化学习引入“自我评判”机制。

实践验证：在“薪资数据分析”“JavaScript创建我的世界”等任务中展现强大智能体能力。

上手途径：直接体验，访问kimi.com或下载应用免费使用；API调用，开放平台提供兼容接口，便于应用迁移；私有化部署，模型权重可在多平台下载，支持多种推理框架，已有多家编程工具集成，云服务厂商完成部署。

4. 本周国产大模型持续开源，涉及阿里Qwen-Next、面壁智能MiniCPM 4.1、腾讯HunyuanImage-2.1、B站IndexTTS2、百度ERNIE-4.5-21B- A3B-Thinking等。

各模型亮点：

阿里Qwen - Next发布Qwen3-Next架构，开源Qwen3-Next-80B-A3B系列模型，推理吞吐提升10倍，训练成本降至1/10，256K上下文性能媲美235B旗舰，采用混合注意力等技术，兼顾性能与效率；

面壁智能MiniCPM 4.1是首个原生稀疏架构8B参数深思考模型，代码数学推理速度提升3倍，支持长短文本双频换挡，端侧部署友好；

腾讯HunyuanImage - 2.1是开源文生图模型，支持原生2K生图，性能提升，采用17B参数单/双流DiT架构，引入OCR和IP RAG专家模型，还开源文本改写模型PromptEnhancer；

百度ERNIE-4.5-21B-A3B-Thinking有逻辑等基准跃升、高效调用工具、128K长上下文理解强化三大升级；

B站IndexTTS2以双模式自回归框架突破时长不可控瓶颈，解耦音色与情感，引入GPT潜码与三阶段训练，高情感清晰度提升。

各模型开源链接：

阿里Qwen3 - Next - 80B - A3B系列：https : //hf - mirror.com/Qwen/Qwen3 - Next - 80B - A3B - Thinking 、https :/ /hf - mirror.com/Qwen/Qwen3 - Next - 80B - A3B - Instruct；

面壁智能MiniCPM 4.1：https://hf - mirr o r. c o m / o p e nb m b / M i n i C P M 4 . 1 - 8B ；

腾讯 H u n y u a n I m ag e - 2 . 1 ： http s : / / h f - mirror.com/tencent/HunyuanImage - 2.1；

百度ERNIE-4.5-21B-A3B-Thinking：https://hf-mirror.com/baidu/ERNIE-4.5-21B-A3B -Thinking；

B站IndexTTS2：https://github.com/index -tts/index - tts 、https://hf-mirror.com/IndexTeam/IndexTTS-2、 https://arxiv.org/pdf/2506.21619

5. 16家研究机构联合发表的100页综述首次系统提出Agentic RL（代理式强化学习）范式。

关键要点：

Agentic RL 定义：把大语言模型（LLM）从“一次性文本生成器”升级为“可在动态环境中持续感知、规划、行动、反思的自主智能体”，并给出统一理论框架、能力图谱、任务全景与开源资源大盘点。

范式迁移对比：传统LLM - RL是单轮问答、静态prompt → 静态回答、reward只评“答得好不好”、退化MDP（T = 1）；Agentic RL是多轮交互、动态环境状态 → 动作→ 新状态、reward还评“做得对不对”、标准POMDP（T > 1）。

理论框架：用POMDP把“LLM当policy”，给出形式化七元组⟨ S,A,P,R,O,γ⟩ ，A = A_text ∪ A_action， O为多模态信号，R支持稀疏或稠密奖励。

RL对六大模块的作用：

Planning外部搜索（MCTS）或内部策略梯度直接优化计划，代表工作有LATS、AdaPlan；

Tool Use从模仿ReAct → 奖励驱动TIR（Tool-Integrated Reasoning），代表工作有ToolRL、ReTool、OpenAI o3；

Memory把静态RAG升级为“RL决定何时写/删/查”，代表工作有Memory- R1、MemAgent；

Self - Improvement自生成critique → 在线DPO/GRPO更新，代表工作有Reflexion、R-Zero、Absolute Zero；Reasoning慢思维“长链推理”由过程奖励塑形，代表工作有DeepSeek-R1、 o1/o3；

Perception视觉/音频/3D任务统一用GRPO优化，代表工作有Vision- R1、SVQA-R1、EchoInk-R1。

任务视角：呈现十大战场全景图，涉及搜索与研究、代码、数学、GUI、视觉、具身、多智能体等领域，介绍关键趋势与开源亮点。

开源资料：汇总50+环境与基准，15个RL框架；不同类型推荐上手资源，Web任务（WebArena等）、代码任务（SWE-bench等）、多智能体（SMAC-Exp等）、框架（OpenRLHF等）。

相关链接：论文链接https://arxiv.org/pdf/2509.02547；论文标题The Landscape of AgenticR e i n f o r c e m e n t L e a r n i n g f o r L L M s : A S u r v e y ；开源论文集合链接h t t p s : / / g i t h u b . c o m / x h y u m ir a c l e / A w e s o m e - A g e n t i c L L M - R L - P a p e r s

6. OpenAI前CTO所在公司Thinking Machines Lab发布研究《战胜LLM推理中的不确定性》，揭示LLM推理不确定性根源并提出解决方案，实现推理阶段不确定性降为0%。

关键信息：LLM推理不确定性现象为多次向ChatGPT问同一问题结果不同，即便将温度调低至0，LLM API实践中仍不确定；

非确定性根源常被误解为源于GPU并行性和浮点运算非结合性，但现代GPU矩阵乘法操作通常结果确定，真正原因是批处理大小变化，多数常见matmul实现“逐次确定性”但非“批次不变”，服务器负载决定内核运行批次大小，使LLM推理对单个用户呈“非确定性”；

解决方案是实现批处理不变性，RMSNorm始终采用“单row单block”策略，小batch时空跑SM也不拆reduction，MatMul禁用Split-K/Stream-K，固定tile尺寸（如128×128），牺牲<20%峰值TFLOPS换全程bit一致，Attention采用KV-Cache布局+固定split - size策略，保持批量不变性；

实验结果是利用vLLM的FlexAttention后端及torch.Library演示确定性推理，可在指定链接找到“批不变”内核库及vLLM示例，使用Qwen/Qwen3- 235B-A22B-Instruct-2507测试，未启用批不变内核生成80个不同完成语句，启用后1000个完成结果相同。