Kimi K2 万亿参数大模型开源

月之暗面正式发布Kimi K2大模型并宣布开源，同步上线并更新了API，输出价格定为16元人民币/百万token。

前有xAI的Grok 4登场，下周谷歌新Gemini和OpenAI的开源模型也可能接踵而至，大模型技术似乎正站在新的节点上，或许是受到Kimi K2的影响，奥特曼很快发推预告了自家开源模型，但网友对此并不看好。

开源模型信息与初期热度

本次开源的Kimi K2包含两款模型：基础模型Kimi-K2-Base与微调后模型Kimi-K2-Instruct，两者都可以商用，相关技术细节可查看博客（ https://moonshotai.github.io/Kimi-K2/ ）和GitHub仓库（ https://github.com/MoonshotAI/Kimi-K2 ）。

根据Hugging Face页面数据，Kimi K2发布后的前20分钟，下载量就接近12K，足见市场对其的关注。

性能表现：开源新标杆，挑战闭源强者

从LiveCode Bench、AIME2025和GPQA-Diamond等多个基准测试结果来看，Kimi K2超过了DeepSeek-V3-0324、Qwen3-235B-A22B等开源模型，成为开源领域的新SOTA（ state-of-the-art）；同时，在多项性能指标上，它还能赶超GPT-4.1、Claude 4 Opus等闭源模型，展现出领先的知识储备、数学推理与代码能力。

尤其在代码能力上，Kimi K2经住了初步检验，此前Grok 4发布后，测试发现其代码能力不稳定，而Kimi K2的表现则相对亮眼，有网友将其与Claude Code链接使用，效果理想，由于价格低廉，不少人认为它可能成为Claude 4 Sonnet的有力开源平替，甚至有网友称其为“代码模型的DeepSeek时刻”。

HuggingFace联合创始人Thomas Wolf也评价，K2令人难以置信，开源模型正在向最新的闭源权重模型发起挑战。

实际应用：自动调用工具，简化任务流程

Kimi K2在实际应用中展现出自动理解任务环境、自主决定行动的能力，下达任务指令时，用户不用像过去那样为智能体列出详细工作流程，处理复杂任务时，它会自动调用多种工具扩展能力边界，上线后，网友第一时间尝试，收获了不错的体验。

技术突破：从优化器到数据策略的创新

Kimi的技术博客披露了K2训练中的几个关键技术。

• 预训练数据规模达15.5T tokens，且未采用传统的Adam优化器。

• 为解决万亿参数模型训练稳定性不足的问题，引入MuonClip优化器，作为一种优化算法，Muon优化器能帮助神经网络更好收敛，提升模型准确性和性能，今年2月，月之暗面基于Muon优化器推出的高效大模型Moonlight，已证明这类优化器在LLM训练中显著优于广泛使用的AdamW优化器。

在K2开发中，团队进一步扩展Moonlight架构：基于Scaling Laws分析，通过减少Attention Heads数量提升长上下文效率，增加MoE稀疏性提高token利用效率，但扩展中遇到了Attention logits爆炸导致训练不稳定的问题，而现有logit软上限控制和query-key归一化等方案效果有限。

对此，团队在全新的MuonClip中融入自研的qk-clip技术，在Muon更新后直接重新缩放query和key投影组成的权重矩阵，从源头控制Attention logits规模，实现稳定训练，改进后的MuonClip优化器不仅能支持万亿参数级LLM训练，还大幅提升了token效率——这正是业界（如Ilya Sutskever）看重的延续Scaling Laws的关键系数，实验证实，MuonClip有效防止logit爆炸，同时保持下游任务性能，Kimi K2顺利完成15.5T tokens预训练，过程中无任何训练尖峰，形成了一套LLM训练新方法。

• 针对真实工具交互数据稀缺的难题，采用大规模Agentic数据合成策略，让模型学习复杂工具调用（Tool Use）能力。

团队开发了一个受ACEBench启发的综合流程，大规模模拟真实世界工具使用场景：系统性演化出涵盖数百个领域的数千种工具（包括真实MCP工具和合成工具），生成数百个具有多样化工具集的智能体；随后让这些智能体与模拟环境、用户智能体交互，创造逼真的多轮工具使用情景；最后由大语言模型（LLM）充当评判员，根据任务评分标准（rubrics）评估模拟结果，筛选高质量训练数据。

这套可扩展流程生成了多样化、高质量的数据，填补了特定领域或稀缺场景真实数据的空白，同时通过LLM评估筛选，减少了低质量数据对训练的负面影响，为大规模拒绝采样和强化学习奠定基础。

• 引入通用强化学习（General RL），结合RL与自我评价（self-judging）机制，在可验证任务与不可验证任务间架起桥梁。

在数学、编程等可验证任务上，可根据正确答案、任务完成情况等可验证奖励信号持续更新模型能力评估，但传统强化学习依赖明确反馈信号，在生成文本、撰写报告等不可验证任务中，很难给出客观、即时的奖励。

通用强化学习通过自我评价机制，让模型充当自己的评判员（critic），提供可扩展、基于rubrics的反馈，替代外部奖励，解决不可验证任务中奖励稀缺的问题，同时，基于可验证奖励的策略回滚（on-policy rollouts），持续更新评判员，提升其对最新策略的评估准确性。

这种利用可验证奖励改进不可验证奖励估计的方式，让Kimi K2既能高效处理传统可验证任务，又能在主观的不可验证任务中自我评估，推动强化学习向更广泛应用场景扩展，长远来看，这些实践让大模型具备在各种复杂环境中持续优化的能力，可能是未来模型智能水平进化的关键。

行业趋势：从堆参数到算法创新的转向

Kimi K2的发布让人联想到两天前xAI的Grok-4发布会，当时马斯克团队宣传大模型推理能力时，列出了基于通用AI难度最高的测试“人类最后的考试”Humanities Last Exam（HLE）上的几个重要突破节点，其中OpenAI的深度研究、Gemin 2.5 Pro和Kimi-Reseracher都被列为重要突破。

Kimi-Researcher上月刚发布，采用端到端自主强化学习，以结果驱动算法训练，摆脱传统监督微调和基于规则或工作流的方式，探索规划步骤越多，模型性能越强，而Kimi K2则采用了与Grok 4类似的大规模工具调用方式。

受国内算力资源紧缺影响，新一波大模型技术竞争已逐渐放弃单纯堆参数、扩大算力规模的方式，在推动模型SOTA的过程中，通过算法创新降低成本、提升效率成为趋势。