19157628936

景联文AI观察动态速递 第3期

时间:2025-11-21 17:55:39

作者:景联文科技

浏览:


image.png 

大厂模型动态

1. OpenAI 发布了 GPT - 5.1Instant & Thinking,主打智商情商双重升级,首次引入「自适应推理」,平衡速度与深度,新模型对话风格更有人味,个性化设置大升级。同时发布了首款 AI 浏览器 ChatGPT Atlas,其 Agent 模式可接管鼠标完成跨网页多步骤任务。未来几周,ChatGPT 新版本将引入个性12 月将推行年龄分级系统。此外,还小范围测试了 ChatGPT 群聊功能。

2. 谷歌 发布了 Gemini 3,相比去年的 Gemini 2 有巨大飞跃,在主流 AI 基准测试中超越前代及竞品。它具有多模态理解能力强、推理能力出色、编码能力优秀等特点,还推出了生成式 UI”变革搜索,Agent 实用性增强。谷歌还发布了视频模型 Veo - 3.1,挑战 OpenAI Sora 2,具备原生音频注入、场景手术刀等关键特性。另外,谷歌的 NotebookLM 新增图像识别功能和 Deep Research 功能。

3. Meta  2026 年起将“AI 驱动的影响纳入员工绩效核心指标,鼓励员工使用内部 AI 聊天机器人 Metamate,允许部分求职者在编码面试中使用 AI 助手。

4. 阿里 千问 APP 公测版上线,以 Qwen3 模型为底座,将覆盖多个生活场景。

5. 小米 推出大模型 + 智能家居解决方案 Xiaomi Miloco,以自研大语言模型 MiMo - VL - Miloco - 7B 为核心,支持视觉数据的设备端理解保障隐私安全。

6. 马斯克  xAI 发布了 Grok 4.1,在 LMArena 排行榜上成绩优异,在情商测试、创意写作等方面表现出色,且减少了幻觉问题。

其他公司模型动态

1. 贝佐斯 创立的 Project Prometheus 首轮获 62 亿美元融资,研究将 AI 应用于物理任务。

2. Physical Intelligence 发布了最新机器人基础模型 π*0.6,采用 Recap 方法提升具身智能成功率和处理效率。

3. MiniMax  M2 推出 9.9 元编程套餐,在 OpenRouter 平台 token 调用量全球 Top5

4. PixVerse 上线升级版 V5 Fast 及「Modify」精修功能,视频生成速度提升超 30%

5. 蚂蚁集团 推出全模态通用 AI 助手 「灵光」,支持自然语言 30 秒生成小应用。

6. Gambo AI 推出氛围编程”Agent,输入一句话 5 - 10 分钟生成可商业化发布的完整游戏。

7.  Meta 员工 创立的 Sandbar 发布 Stream 智能戒指,专注 AI 语音交互。

最新开源模型(含框架、平台、工具、方案、Agent 开发、Robotics 开发)

1. 微博 自研开源大模型 VibeThinker  15 亿参数,采用频谱到信号原理SSP)方法训练,在国际顶级数学竞赛基准测试上击败参数量是其数百倍的模型,后训练总成本仅 7800 美元,成本效益比达 30 60 倍。

2. MiroMind 推出开源智能体基座模型 MiroThinker v1.0,提出深度交互 Scaling”维度,支持 256K 上下文和 600 轮工具调用,在 BrowseComp 测试中准确率达 47.1%,逼近 OpenAI DeepResearch 51.5%,中文任务 BrowseComp - ZH 超越 DeepSeek - v3.2 7.7 个百分点。

3. 陈天桥盛大团队 推出面向 AI 的长期记忆操作系统 EverMemOS,在评测集上成绩优异,超越 SOTA 水平,系统受人脑记忆机制启发,有四层架构,解决纯文本相似度检索难题,已在 Github 开源。

4. 腾讯内容算法中心 联合 清华大学 提出 ReSeek 框架,重塑 Search Agent 核心逻辑,引入动态自我修正机制避免一条路走到黑,在 3B 7B 参数规模上达业界领先平均性能。

5. 美团 LongCat 团队 联合多所顶尖高校推出包含 50 道原创 IMO 级别难题的新基准 AMO - Bench,用于评估 LLM 数学推理能力,顶级模型在该基准测试中表现不佳,但展示了提升空间。

6. 阿里通义实验室 推出自进化 agent 系统 AgentEvolver,包含自我提问、自我导航、自我归因三个协同机制,在 AppWorld BFCL - v3 基准测试中表现出色,实现了更高效的探索、更好的样本利用和更快的适应,且代码开源。

7. 微软研究院 提出全新推理范式 AsyncThink,让大语言模型从单打独斗的推理者进化成会带团队的项目经理,在多解 Countdown 任务、数学竞赛推理等方面表现优异,具备跨领域泛化能力。

8. 北京大学团队  AI - Newton 系统 用符号回归方法,无监督、无先验知识下重新发现基础物理定律,由知识库支持,平均识别多个物理概念和定律,为 AI 驱动科学发现提供新范式。

数据加工范式、数据需求态势

1. 斑马口语 针对 6 - 12 岁儿童英语口语场景深度定制 AI 外教,积累大量孩子发音和真人外教教学数据,构建专项数据集用于 AI 外教学习。

2. ReSeek 框架 构建了 FictionalHot 数据集,用于公正评估智能体推理能力,消除数据污染问题。

3. OpenAI 提出训练权重稀疏的 Transformer 模型,从头训练易解释模型以理解更复杂的模型,该方法涉及数据训练和模型优化。

4. RL 赋能搜索 涉及多种训练范式和奖励设计,数据在其中用于训练智能体,包括 SFT 冷启动、RL 微调等,奖励函数从单一到多维演进。

报告观点(机构报告、白皮书、调研、高管/学者观点)

1. CB Insights 报告 指出 2024 AI Agent 创业公司融资总额增长,Voice AI 成增长最快赛道,Coding AI Agents 表现突出,Customer service AI 估值倍数高,Reasoning models 导致成本倒挂,2025 年收购案多,Agent 监控工具成企业刚需。

2. 李飞飞 认为 AGI 更像营销术语,当前 AI 最大短板是缺乏空间智能,阐述了世界模型三个核心能力,World Labs 发布的世界模型产品 Marble 已在多领域广泛应用,创作时间缩短 40 倍。

3. OpenAI 提出训练稀疏模型使模型内部机制更易理解,找出最小回路量化可解释性,但研究处早期阶段,稀疏模型小且训练效率低。


高质量数据生产运营商
客户咨询电话:19157628936
地址:杭州市萧山区杭州湾信息港E幢7楼
微信公众号 客户咨询微信