19157628936

Kimi K2 登顶全球开源模型榜首,12项开源任务性能领先

时间:2025-07-23 16:39:13

作者:景联文科技

浏览:


image.png 

 

711日,Moonshot AI正式发布并开源了Kimi K2模型。作为基于 MoE 架构的基础模型,其以 “Agentic AI” 为核心定位,总参数达 1 万亿、激活参数 320 亿,并非简单的聊天工具,而是能理解复杂意图、拆解任务并自主调用工具的 数字员工,可高效完成多步骤复杂流程。

 

核心性能:12SOTA横扫三大赛道,多项指标比肩闭源模型

Kimi K2在多个关键领域展现出强大实力,一举获得12项开源SOTA。在代码、数学、工具调用这三大核心赛道上超越DeepSeek - V3DeepSeek - R1等顶尖开源模型。

 

• 代码生成:高效理解编程需求,生成高质量、高可读性代码,显著提升开发效率;

• 数学推理:精准应对复杂运算与逻辑推理任务,输出可靠解答;

• 工具调用:快速稳定调用各类工具,实现复杂任务自动化处理。

 

在闭源模型对比中,其表现同样亮眼:

• 多轮对话全球第一。

• 硬提示、编程任务全球第二。

• 长查询全球第五。

• 数学、创意写作、指令遵循全球第七。

 

技术创新

Kimi K2 采用稀疏 MoE 架构,通过动态激活专家模块提升参数利用率:总参数量 1 万亿,含 384 个专家,每个 token 动态选择 8 个专家计算,另设 1 个共享专家增强通用性,激活参数稳定在 320 亿。

 

训练层面,其采用改进的 MuonClip 优化器,有效解决大规模训练中梯度不稳定与收敛难题,支持模型在 15.5 万亿 tokens 的预训练规模下稳定运行,避免 训练崩溃;同时,128K 的最大上下文长度,使其在长文档理解、长对话及大规模检索任务中具备显著优势。

image.png 

应用优势

• 编程领域:在 LiveCodeBench 互动式编程基准测试中准确率达 53.7%(超越 GPT-4.1 44.7%),OJBench 竞赛题测试得分 27.1%,印证对软件工程场景的深度适配;前端开发中,可生成含粒子系统、3D 场景的交互性代码,兼具设计感与视觉表现力。

• Agent 工具调用:能稳定解析复杂指令并拆解为可执行的 ToolCall 结构,在 SWE-bench Verified 代码错误修复测试中单次尝试准确率 65.8%,比肩部分专有模型;可处理 13 万行数据并生成带专业图表的分析报告。

• 多任务综合能力:Tau2-bench 加权值 66.1%(复杂 STEM 任务)、AceBench(英文)准确率 80.1%(语言理解与生成)、MMLU-Pro 多语言测试领先(跨学科能力),AIME 数学测评优于同类模型(深度建模潜力),同时登顶 EQ-Bench3 Creative Writing v3(情商与创意写作)。

image.png 

数据是 Kimi K2 能力的核心支撑:15.5 万亿 tokens 的预训练数据奠定认知基础,而 Agentic Tool Use 合成数据则赋予其执行复杂现实任务的能力。二者的规模、质量与复杂性持续精进,推动模型在核心领域不断突破,向 可信赖数字同事演进。

 

 

关于景联文

景联文科技为政府、企业客户提供高质量数据生产运营服务。结合市场AI模型需求,提供从数据汇聚、数据治理、语料开发、语料沉淀、语料交易的全链条一站式数据服务,帮助客户释放数据价值。依托景联文SolarSense语料工程平台,解决数据价值落地最后一公里难题,赋能企业人工智能、政府人工智能、生成式人工智能使用语料。

 

公司将继续秉持成为人工智能的核心引擎,让每一比特数据释放AI的无限可能企业愿景,为中国AI崛起提供高质量数据集!


高质量数据生产运营商
客户咨询电话:19157628936
地址:杭州市萧山区杭州湾信息港E幢7楼
微信公众号 客户咨询微信