总部地址
杭州市滨江区西兴街道中国数谷3号楼16楼
景联文AI观察动态速递
生成式AI
1. OpenAI与微软:发布非约束性合作备忘录,涉及核心问题但条约未确定;预计成立超1000亿美元公益公司;面临巨大成本压力。
2. Utopai:前谷歌X团队创立全球首家AI原生影视工作室,两部电影项目收入1.1亿美元并锁定戛纳;突破AI视频生成难题;获好莱坞支持。
3. MiniMax Music 1.5:发布新一代音乐生成模型,支持4分钟歌曲创作,有四大突破;支持自定义特征;提供API适用于多种场景。
4. 美团AI Agent“小美”:开启公测,简化点餐流程;基于自研模型,可全自动操作并记忆习惯;有局限性,待优化。
5. 小红书FireRedTTS-2:发布新一代对话合成模型,解决现有方案问题;训练数据多,支持多种功能;评测领先,支持多语言,已开源。
6. B站IndexTTS2:开源零样本语音合成模型,解决行业痛点;采用新方法,误差率低;系统模块组成,支持情绪控制,有跨语言应用意义。
7. Meta MobileLLM-R1:发布小参数高效模型,为特定问题优化;性能佳,Token效率和性价比高。
8. Thinking Machines:估值120亿美元,发布首篇研究博客解决LLM推理非确定性问题,改进相关机制实现可复现推理结果,首款产品为Connection Machine。
9. ChatGPT:OpenAI宣布其正式支持MCP,Plus和Pro用户可一句Prompt自动化操作,MCP实现标准化交互,用户可连第三方服务但无法与其他功能并用。
10. 微信公众号:推出腾讯混元大模型支持的“智能回复”功能,可学历史文章和风格,混元还将上线Roleplay模型和AI分身应用。
11. Kimi:开源新中间件checkpoint - engine,20秒完成万亿参数模型更新,提升强化学习效率,采用混合共置架构,支持训练和推理解耦。
12.英伟达:发布用于3D模型生成的AI Blueprint,文本驱动,集成微服务,工作流程自动化,节省艺术家时间。
13.百度学术:完成AI重构,推出多项功能打造一站式AI学术平台,覆盖学术全链路,收录大量文献资源。
14.腾讯会议:联合元宝推出AI托管功能,替用户听会记录,会后可提问辅助决策。
前沿科技
1. “Gauss”AI Agent:三周完成陶哲轩团队18个月未完成的数学挑战;由Math公司开发;能协助数学家,团队有提升代码总量计划。
2. 宇树科技创始人王兴兴后悔错过AI发展,公司预计2025年底提交IPO申请,他修正数据观点,创业者拥抱AI创新。
报告观点
1. 红杉美国解读:OpenAI推出GPT-5,有新特性;其他玩家推出新品;新AI版图重新排布。
2. DeepMind:只瞄准三类“不可能任务”;模型从专用到通用进化;目标是打造“科学API”,降低科研门槛。
3. “强化学习之父”萨顿外滩演讲称AI进入“经验时代”,强化学习推动转变,提出四条预测原则,认为人类智能将被超越。
GPT-5相关
1. GPT-5亮点 :GPT-5发布后虽未达业界“飞跃”期望,但幻觉率大幅下降,OpenAI数据显示其出现事实错误概率比GPT-4o低约45%,比OpenAI o3低约80%,此前提升原因未公开。
2. 幻觉在预训练阶段不可避免:OpenAI新论文《语言模型为何会产生幻觉》证明“幻觉”是大语言模型统计学习本质下必然且可预测的副产品。模型通过逐词预测评估句子,有理论上的“是否有效”(IIV)判断器,但处理灰色信息时会出错,且判断错误会放大,导致生成任务出现幻觉。
3. 后训练未能有效抑制幻觉:后训练有校准概念,预训练会使模型自然校准但产生平原效应易致幻觉。后训练通过偏好反馈“非校准”模型,集中概率分布减少因不确定导致的幻觉,但增加过度自信风险。主流评估基准采用“二元评分制”,惩罚不确定性,奖励猜测,阻碍模型诚实回答。
4. GPT-5可能的杀手锏与DeepSeek R1的短板:若强化学习采用二元奖励路径,会降低模型抑制幻觉能力。如DeepSeek R1采用极端二元路径后训练,可能增加“顽固型”或“过度自信型”幻觉,幻觉率高达14.3%;而使用PRM的OpenAI o3幻觉率仅6.8%。GPT-5可能引入Universal Verifier技术,采用非二元标准打分。
5. 解决幻觉的建议:论文提议后训练阶段引入带惩罚的评分机制,让模型从“得分优化器”变为“风险评估器”, 专注于真实,才可能解决幻觉问题。
开源项目
1、基座模型
Qwen3-Next:先进文本生成项目,含多子模型,适用于文本生成、编码等多任务,高性能且支持多场景。链接:https://sota.jiqizhixin.com/project/qwen3
POINTS-Reader:端到端文档转换视觉语言模型,基于POINTS1.5架构,支持中文和英文文档提取,性能优且无需后处理。链接:https://sota.jiqizhixin.com/project/points-reader
Tri-70B-Intermediate-Checkpoints:Trillion Labs发布的韩语大规模语言模型项目,公开Tri系列中间检查点促进训练动态研究。链接:https://sota.jiqizhixin.com/project/intermediate-checkpoints
HuMo:统一人物视频生成框架,支持多模态输入,实现强大文本提示跟随和音频同步视频生成。链接:https://sota.jiqizhixin.com/project/humo
2. 框架平台、必备工具
uniprof:通用CPU分析工具,无需改代码或添加依赖,支持多平台和运行时分析,输出统一格式并分析性能热点。链接:https://sota.jiqizhixin.com/project/uniprof
3. Agent开发
Self-Improving Coding Agent:编码agent框架,通过自我改进循环优化代码库,支持多模型推理。链接:https://sota.jiqizhixin.com/project/self-improving-coding-agent
基座模型
SRPO:文本到图像生成模型,通过语义相对偏好优化提高图像质量,解决多步去噪计算复杂性问题,减少对离线微调依赖,在FLUX.1.dev模型基础上微调提升人类评估的图像质量。链接:https://sota.jiqizhixin.com/project/srpo - 2
框架平台、必备工具
AgentGym-RL:训练大语言模型agent的框架,通过多轮强化学习实现长远决策,涵盖多种场景,支持主流算法,提升开源7B规模模型表现。链接:https://sota.jiqizhixin.com/project/agentgym
ST-Raptor:处理多样化半结构化表格问答的工具,输入Excel表格和自然语言问题即可生成精确答案,无需额外微调,结合VLM和HO - Tree算法,采用两阶段验证机制。链接:https://sota.jiqizhixin.com/project/st-raptor
Checkpoint Engine:大型语言模型推理引擎中更新模型权重的简单中间件,提供高效轻量级实现,有广播和点对点两种权重更新实现。链接:https://sota.jiqizhixin.com/project/checkpoint- engine
3. Agent开发
ROMA:元agent框架,利用递归分层结构解决复杂问题,提供并行问题解决和透明开发,开源可扩展。链接:https://sota.jiqizhixin.com/project/roma
Strix:开源的AI驱动安全测试工具,模拟黑客行为发现并验证漏洞,提供全面安全测试功能。链接:https://sota.jiqizhixin.com/project/strix
基座模型
ERNIE-4.5-21B-A3B-Thinking:210亿总参数,每个token激活30亿参数的文本MoE模型,逻辑推理等任务表现提升,有高效工具使用和128K长上下文理解能力。链接:https://sota.jiqizhixin.com/project/ernie-3
aquif-3.5:基于GGUF格式的多语言文本生成模型,支持10种语言,专注文本生成推理等任务,适用于资源有限环境。链接:https://sota.jiqizhixin.com/project/aquif-3-5-8b-think-gguf
HunyuanImage-2.1:高效文本生成图像模型,能生成2K分辨率图像,增强文本与图像对齐能力,降低计算成本,提升图像质量。链接:https://sota.jiqizhixin.com/project/hunyuanimage-2-1
K2-Think:320亿参数的开源通用推理模型,数学问题解决出色,支持文本生成,有安全评估功能,推理速度有优势。链接:https://sota.jiqizhixin.com/project/k2-think
2. Agent开发
MobiAgent:强大可定制的移动agent系统,提供智能化移动设备交互体验,支持安卓设备执行复杂任务,是研究开发移动agent技术的理想平台。链接:https://sota.jiqizhixin.com/project/mobiagent
3. 必备工具
claude-init:为中国开发者定制的零门槛AI编程环境,提供中文化体验,集成多种功能,支持免翻墙访问,一键安装即可使用。链接:https://sota.jiqizhixin.com/project/claude-init
B站开源IndexTTS2
2.
突破性文本转语音系统,零样本下实现情感丰富、时长可控语音合成,采用自回归模型架构,目标是提供工业级可控性与效率,适用于多场景。链接: https://sota.jiqizhixin.com/project/indextts2
2. 基座模型
SpikingBrain:受大脑机制启发,集成混合高效注意力、MoE模块和脉冲编码,架构支持通用转换管 道,能用不到2%数据持续预训练,适配非NVIDIA集群框架等确保稳定性,在4M-token序列TTFT上加速超100倍,微观层面稀疏性超69%。链接:https://sota.jiqizhixin.com/project/spikingbrain
MiniCPM4.1:为终端设备设计的高效大语言模型,在四个关键维度系统创新,支持深度推理和非推理模式,能在典型终端芯片上实现超5倍生成加速。链接:https://sota.jiqizhixin.com/project/minicpm4 - 1
TildeOpen LLM:开源基础语言模型,专注支持北欧和东欧少数语言,由Tilde.ai开发获欧盟资助,用LUMI超级计算机训练,超300亿参数,解决19种重点语言性能差距,采用公平分词器和课程学习方法。链接:https://sota.jiqizhixin.com/project/tildeopen - llm
3. Agent开发
Windows-Use:强大自动化agent,可在Windows GUI层与系统交互,执行多种任务,无需依赖传统计算机视觉模型,让任何大语言模型能执行计算机自动化任务。链接:https://sota.jiqizhixin.com/project/windows - use
MathModelAgent:专为数学建模设计的智能体系统,能自动完成建模任务并生成可提交论文,缩短建模比赛时间,支持多种模型和自定义模板,未来计划集成更多功能。链接:https://sota.jiqizhixin.com/project/mathmodelagent
基座模型
Kimi - K2 - Instruct - 0905:Kimi K2系列最新最强版本,是先进的混合专家(MoE)语言模型,有32亿激活参数和总计1万亿参数,在公共基准测试和编程任务中性能提升显著,提供更好前端编程体验和更长上下文支持。链接:https://sota.jiqizhixin.com/project/kimi-k2
2. 框架平台、必备工具
FineVision:Hugging Face推出的项目,通过开放数据集提升计算机视觉模型性能,用户可访问和使用各种数据集训练和优化视觉模型。链接:https://sota.jiqizhixin.com/project/finevision
UltraRAG:基于Model Context Protocol (MCP)的低代码RAG框架,由多机构联合推出,降低科研人员工程实现成本,UltraRAG 2.0降低复杂RAG系统技术门槛与学习成本。链接:https://sota.jiqizhixin.com/project/ultrarag-2-0
SceneSplat:基于高斯点云的3D场景理解项目,结合视觉语言预训练技术,通过SceneSplat - 7K数据集实现3D高斯点云语义学习,突破场景处理限制。链接:https://sota.jiqizhixin.com/project/scenesplat
EmbeddingGemma:Google开发的300M参数开源嵌入模型,基于Gemma 3构建,能生成文本向量表示,适合搜索和检索任务,支持100多种语言训练,适合资源有限环境部署。
3. Robotics开发
SAIL-Recon:前馈式Transformer模型,通过视觉定位扩展神经场景回归实现大规模结构光,可快速精确且稳健地重建。链接:https://sota.jiqizhixin.com/project/sail-recon
其他重要信息
1.百度正式开源最新思考模型ERNIE-4.5-21B-A3B-Thinking。多轮测试验证显示, 该模型在文本生成、逻辑推理、知识问答等核心任务中近乎大模型性能表现。
特点:推理任务表现突出,涵盖逻辑、数学、科学与文本生成等;具备高效工具与函数调用能力,支持复杂任务自动化处理;支持128K长上下文理解,适用于学术科研等长文本推理场景;扩展思维长度,适合高复杂度、多步骤推理任务。
模型下载/点赞直达链接:https://huggingface.co/baidu/ERNIE - 4.5 - 21B - A3B - Thinking
2. Claude更新新功能,可将对话直接转换为Excel、文档、PPT和PDF等多种格式可用文件。关键信息:文件直接生成,能直接创建和编辑多种格式文件,非仅输出代码或文本;核心技术是Anthropic为Claude配备私有计算机环境,使其能独立编写和运行代码完成复杂任务;对现有AI办公工具创业公司构成威胁,或改写市场格局;Anthropic从底层模型供应商向平台级玩家转型,不止提供API;目前作为预览功能向Max、Team和Enterprise付费用户开放,Pro用户未来几周获得权限。
功能优势:从“对话”到“交付”革命,可将指令转化为功能完整、格式规范办公文档,能处理数据并生成报告等;跨越格式的自由,有强大跨格式处理能力,整合多个独立工具工作流;Claude的“专属计算机”,私有计算机环境让Claude从“大脑”进化为“执行者”,抹平“想法”与“执行”鸿沟。
战略意义:揭示Anthropic宏大战略,将“模型+ 应用”模式复制到知识工作领域,构建生态闭环,重塑工作与创造范式。
3. Kimi K2模型更新 :月之暗面发布Kimi K2模型最新版本(0905),实现深刻能力进化,从“应答者”转型 为“执行者”。
关键能力提升:智能体编码在SWE-bench等基准中表现卓越,可完成规划、编码到调试全流程;上下文窗口从128K翻倍至256K,利于处理复杂长线任务;提供60-100 Token/s高速版API,兼容Anthropic API,降低迁移成本;引入MuonClip优化器稳定训练,通用强化学习处理复杂无明确答案任务;基础与指令微调模型均开源,方便开发者部署使用。
开发者利好:智能体编码能力增强,前端代码生成质量提升;高速版API带来流畅、高效、经济的开发体验。
基准测试表现:在SWE-bench Verified等测试中表现突出,在多个维度抗衡顶级闭源模型,部分超越开源模型。
能力来源:MuonClip优化器在Muon优化器基础上引入qk - clip技术,避免训练梯度爆炸;数据合成与强化学习构建模拟系统生成数据,通用强化学习引入“自我评判”机制。
实践验证:在“薪资数据分析”“JavaScript创建我的世界”等任务中展现强大智能体能力。
上手途径:直接体验,访问kimi.com或下载应用免费使用;API调用,开放平台提供兼容接口,便于应用迁移;私有化部署,模型权重可在多平台下载,支持多种推理框架,已有多家编程工具集成,云服务厂商完成部署。
4. 本周国产大模型持续开源,涉及阿里Qwen-Next、面壁智能MiniCPM 4.1、腾讯HunyuanImage-2.1、B站IndexTTS2、百度ERNIE-4.5-21B- A3B-Thinking等。
各模型亮点:
阿里Qwen - Next发布Qwen3-Next架构,开源Qwen3-Next-80B-A3B系列模型,推理吞吐提升10倍,训练成本降至1/10,256K上下文性能媲美235B旗舰,采用混合注意力等技术,兼顾性能与效率;
面壁智能MiniCPM 4.1是首个原生稀疏架构8B参数深思考模型,代码数学推理速度提升3倍,支持长短文本双频换挡,端侧部署友好;
腾讯HunyuanImage - 2.1是开源文生图模型,支持原生2K生图,性能提升,采用17B参数单/双流DiT架构,引入OCR和IP RAG专家模型,还开源文本改写模型PromptEnhancer;
百度ERNIE-4.5-21B-A3B-Thinking有逻辑等基准跃升、高效调用工具、128K长上下文理解强化三大升级;
B站IndexTTS2以双模式自回归框架突破时长不可控瓶颈,解耦音色与情感,引入GPT潜码与三阶段训练,高情感清晰度提升。
各模型开源链接:
阿里Qwen3 - Next - 80B - A3B系列:https : //hf - mirror.com/Qwen/Qwen3 - Next - 80B - A3B - Thinking 、https :/ /hf - mirror.com/Qwen/Qwen3 - Next - 80B - A3B - Instruct;
面壁智能MiniCPM 4.1:https://hf - mirr o r. c o m / o p e nb m b / M i n i C P M 4 . 1 - 8B ;
腾讯 H u n y u a n I m ag e - 2 . 1 : http s : / / h f - mirror.com/tencent/HunyuanImage - 2.1;
百度ERNIE-4.5-21B-A3B-Thinking:https://hf-mirror.com/baidu/ERNIE-4.5-21B-A3B -Thinking;
B站IndexTTS2:https://github.com/index -tts/index - tts 、https://hf-mirror.com/IndexTeam/IndexTTS-2、 https://arxiv.org/pdf/2506.21619
5. 16家研究机构联合发表的100页综述首次系统提出Agentic RL(代理式强化学习)范式。
关键要点:
Agentic RL 定义:把大语言模型(LLM)从“一次性文本生成器”升级为“可在动态环境中持续感知、规划、行动、反思的自主智能体”,并给出统一理论框架、能力图谱、任务全景与开源资源大盘点。
范式迁移对比:传统LLM - RL是单轮问答、静态prompt → 静态回答、reward只评“答得好不好”、退化MDP(T = 1);Agentic RL是多轮交互、动态环境状态 → 动作→ 新状态、reward还评“做得对不对”、标准POMDP(T > 1)。
理论框架:用POMDP把“LLM当policy”,给出形式化七元组⟨ S,A,P,R,O,γ⟩ ,A = A_text ∪ A_action, O为多模态信号,R支持稀疏或稠密奖励。
RL对六大模块的作用:
Planning外部搜索(MCTS)或内部策略梯度直接优化计划,代表工作有LATS、AdaPlan;
Tool Use从模仿ReAct → 奖励驱动TIR(Tool-Integrated Reasoning),代表工作有ToolRL、ReTool、OpenAI o3;
Memory把静态RAG升级为“RL决定何时写/删/查”,代表工作有Memory- R1、MemAgent;
Self - Improvement自生成critique → 在线DPO/GRPO更新,代表工作有Reflexion、R-Zero、Absolute Zero;Reasoning慢思维“长链推理”由过程奖励塑形,代表工作有DeepSeek-R1、 o1/o3;
Perception视觉/音频/3D任务统一用GRPO优化,代表工作有Vision- R1、SVQA-R1、EchoInk-R1。
任务视角:呈现十大战场全景图,涉及搜索与研究、代码、数学、GUI、视觉、具身、多智能体等领域,介绍关键趋势与开源亮点。
开源资料:汇总50+环境与基准,15个RL框架;不同类型推荐上手资源,Web任务(WebArena等)、代码任务(SWE-bench等)、多智能体(SMAC-Exp等)、框架(OpenRLHF等)。
相关链接:论文链接https://arxiv.org/pdf/2509.02547;论文标题The Landscape of AgenticR e i n f o r c e m e n t L e a r n i n g f o r L L M s : A S u r v e y ; 开 源 论 文 集 合 链 接h t t p s : / / g i t h u b . c o m / x h y u m ir a c l e / A w e s o m e - A g e n t i c L L M - R L - P a p e r s
6. OpenAI前CTO所在公司Thinking Machines Lab发布研究《战胜LLM推理中的不确定性》,揭示LLM推理不确定性根源并提出解决方案,实现推理阶段不确定性降为0%。
关键信息:LLM推理不确定性现象为多次向ChatGPT问同一问题结果不同,即便将温度调低至0,LLM API实践中仍不确定;
非确定性根源常被误解为源于GPU并行性和浮点运算非结合性,但现代GPU矩阵乘法操作通常结果确定,真正原因是批处理大小变化,多数常见matmul实现“逐次确定性”但非“批次不变”,服务器负载决定内核运行批次大小,使LLM推理对单个用户呈“非确定性”;
解决方案是实现批处理不变性,RMSNorm始终采用“单row单block”策略,小batch时空跑SM也不拆reduction,MatMul禁用Split-K/Stream-K,固定tile尺寸(如128×128),牺牲<20%峰值TFLOPS换全程bit一致,Attention采用KV-Cache布局+固定split - size策略,保持批量不变性;
实验结果是利用vLLM的FlexAttention后端及torch.Library演示确定性推理,可在指定链接找到“批不变”内核库及vLLM示例,使用Qwen/Qwen3- 235B-A22B-Instruct-2507测试,未启用批不变内核生成80个不同完成语句,启用后1000个完成结果相同。