时间:2025-12-12 17:01:57
作者:景联文科技
浏览: 次

大厂模型动态
1. OpenAI 于2025年12月12日发布了GPT - 5.2系列模型,包括GPT - 5.2 Instant、GPT - 5.2 Thinking和GPT - 5.2 Pro三个版本。该模型在多个方面表现出色,性能超越谷歌Gemini 3 Pro,擅长完成有经济价值的任务,在GDPval等基准测试中,有70.9%的时间能追赶甚至吊打专业人士。
同时,OpenAI官宣与迪士尼达成合作,迪士尼向OpenAI投资10亿美元并获超200个热门IP授权,Sora和ChatGPT Images将具备相关创作能力。此外,OpenAI两款神秘图像模型Chestnut和Hazelnut在相关平台测试,据称为GPT Image 2。
2. 谷歌推出新版Gemini Deep Research Agent,基于Gemini 3 Pro构建,经多步强化学习训练,能处理海量上下文并验证观点;开源新网络研究Agent基准DeepSearchQA;推出全新交互API(Interactions API),重新定义开发者构建AI应用的方式。谷歌Nano Banana Flash新模型及Gemini 3 Flash也在本周发布。
3. 微软多个AI产品部门下调销售目标,Azure AI平台Foundry销售额增长目标降低。此前已将Spotify、Zillow和Figma等应用加入ChatGPT,此次Adobe又推出适用于ChatGPT的Photoshop、Express和Acrobat。
4. Meta押注的神秘项目Avocado(牛油果)发布时间从2025年底推迟至2026年Q1,蒸馏学习用了Google Gemma、OpenAI gpt - oss和Qwen模型,可能闭源。
Llama 4发布后表现不佳,扎克伯格重新思考开源战略,成立MSL超级智能实验室并引入28岁AI官Alexandr Wang,MSL裁员600人,同期宣布270亿美元建设Hyperion数据中心。
其他公司模型动态
1. 商汤发布Seko 2.0多剧集创作功能,支持最高100集连续创作,一人30分钟可完成一集短剧,全流程自动化。核心优势是保持资产库主体和场景一致性,每集承上启下,数据采集成本仅为真机遥操方案的10%。
2. 腾讯元宝AI助手推出QQ群智能未读消息总结功能,将群聊记录提炼成总结报告,功能包括热聊话题归类、精准信息追踪、群文件整合和原文直达索引。
3. 华盛顿州Starcloud公司发射的Starcloud - 1卫星搭载H100芯片,成功运行谷歌Gemma并训练出首个太空LLM,基于nanoGPT用莎士比亚语料训练,能以文艺复兴时期语言风格回答问题和做实时情报分析。
4. 灵初智能发布具身原生人类数据采集方案Psi - SynEngine,含数采套装、数采数据管线和跨本体数据迁移模型。数据获取成本仅为真机遥操方案10%,定位精度达亚毫米级,可采集手部手臂全部自由度和全手触觉信息。同步发布Psi - SynNet - v0多模态数据集,已构建上万小时规模,计划明年突破百万小时量级。
5. NatureSelect团队发布首个情感大模型Echo - N1(32B参数),在多轮情感陪伴任务中胜率远超千亿参数商业模型Doubao 1.5,创新提出相关模型,通过双重奖励机制训练,在高难度心理场景测试中,综合评分远高于基座模型Qwen3 - 32B。
6. 稚晖君创立的智元机器人三大产线累计下线5000台,涵盖三种类型,已获多个企业订单,中标中国移动采购项目,机器人应用于工业制造、企业服务、文娱商演等多元场景。
最新开源模型(含框架、平台、工具、方案、Agent开发、Robotics开发)
1. 智谱开源了多项成果,包括工业级GLM - TTS模型,采用Apache 2.0协议,商用友好。该模型仅需3秒就能复刻音色,通过GRPO强化学习、LoRA微调、Phoneme - in技术等,在情感表达和副语言方面达到开源界目前最佳水平,能为内容创作者和开发者带来诸多便利。同时,发布并开源了“超级大脑”(云端模型GLM - ASR - 2512)、“随身小秘”(开源端侧模型GLM - ASR - Nano - 2512)和“神仙输入法”(智谱AI输入法)。此外,还开源了AutoGLM手机Agent全套能力,研发32个月,实现全球首个具备Phone Use能力的AI Agent,覆盖50 +高频中文App,系统采用云手机架构确保数据安全,放弃操作隐私敏感App,建立基础动作框架,模型以双许可开源,推动Agent开源生态建设。
2. 香港中文大学MMLab与美团研究团队开源提出OneThinker,这是一个基于RL的统一多模态视觉推理通才模型,覆盖图像与视频两种模态下的十类核心视觉任务。通过多模态统一任务数据构建和EMA - GRPO强化训练算法,解决了传统RL模型在多任务、多模态场景下的局限,在31项主流视觉任务测试中表现亮眼,能在未见任务上合理推理,展现泛化能力。
3. Mistral AI 发布下一代代码模型系列Devstral 2(123B)和Devstral Small 2(24B),在SWE - bench Verified上表现良好,成本效率比Claude Sonnet高出7倍。同步发布原生CLI工具Mistral Vibe,已作为Zed扩展程序提供,采用修改版MIT许可证,月收入超2000万美元的公司需购买商业授权。
4. 阿里通义实验室推出Qwen - Image - i2L开源工具,单张样本即可训练LoRA实现个性化风格迁移,可无缝集成其他模型,提供四款模型变体,基于Apache2.0许可开源,在基准测试中领先,但在单张2D图提炼3D逻辑上有局限。
5. 蚂蚁全模态代码算法团队在NeurIPS 2025上展示Code Graph Model (CGM),这是一种将代码库图结构集成到开源LLM中的创新架构,开启了“图增强代码大模型”新范式。通过多粒度代码图谱建模、结构 - 语义双模态对齐和两阶段训练策略,在代码库级任务上登顶开放权重模型榜首。为其搭配的轻量级、无代理的GraphRAG框架,核心流程精简为4个模块,可有效生成修复补丁。
数据加工范式、数据需求态势
1. OneThinker模型搭建了OneThinker - 600k和OneThinker - SFT - 340k数据集,分别用于强化学习阶段主力训练和SFT阶段冷启动,通过图像与视频任务联合训练,在时空维度建立统一推理能力。
2. CGM模型采用两阶段训练策略,子图重构预训练从大型代码图中采样子图,要求模型重建原始代码片段;噪声增强微调使用真实GitHub Issue - PR数据,训练Prompt中引入10%噪声,提升模型泛化能力。
3. 小语言模型(SLM)微调测试中,每个模型采用相同蒸馏流程,教师模型生成1万条合成数据,训练4个epoch,学习率5e - 5,线性衰减,LoRA rank = 64,训练与测试集隔离。
技术生态(大会/论坛/赛事/联盟/论文等)
1. Linux基金会成立Agentic AI Foundation,OpenAI、Anthropic、谷歌、微软、AWS等共同发起,旨在建立智能体互操作性标准。OpenAI贡献AGENTS.md标准,Anthropic贡献模型上下文协议,Block贡献goose项目。
2. 新智元报道了发表在Nature Communications上的颠覆性研究,揭示了大脑与GPT在语言处理上的惊人关联,挑战了传统语言学认知。
3. 智合标准中心倡导并发起《企业级AI智能体应用效能评估规范》团体标准起草工作,面向全社会公开征集起草单位与起草人。
报告观点(机构报告、白皮书、调研、高管/学者观点)
1. a16z预测2026年AI将重塑各行业,Agent - native基础设施成必需品,系统核心瓶颈在多Agent协调能力。消费级AI产品重心从“提高效率”转向“增进连接”,“懂我内心”的产品用户留存更好。AI市场机会主要在传统垂直行业,视频将成可“进入”的仿真环境,CRM成基础设施,Agent是交互核心。
2. MiniMax创始人闫俊杰强调全模态发展是AGI必由之路,公司在多赛道全球领先,未来探索多模态融合。MiniMax - M2位居全球大语言模型第五、开源第一,低算力成本,上线一个多月tokens调用量突破1万亿次。AI时代核心竞争力是想象力,中国公司需本土创新,本土培养关键人才,真正技术天才将在两三年内出现。
3. OpenAI报告显示,基于大量用户和员工数据,ChatGPT企业消息量增长,员工节省时间。结构化AI工作流和推理Token使用量大幅增长,多数员工能完成以前无法胜任的任务,非技术岗位代码类应用增加,深度用户使用量高,部分企业使用TPU成本降低或获大量TPU。
4. 摩根士丹利预测谷歌TPU产能将暴涨,2027 - 2028年产量大幅增加,销售收益可观。TPU在推理任务性价比高、能效高,多家企业有相关动作,推理市场规模大,ASIC专用芯片优势明显,英伟达面临挑战。
5. Anthropic编写1.4万字“Claude 4.5 Opus Soul Document”作为AI宪法,平衡“乐于助人”和“不作恶”。社会影响团队仅9人,负责监测和修补漏洞。Anthropic联合创始人警告2027 - 2030年人类面临是否允许AI自我进化的抉择,允许可能导致AI失控。
在线