Kimi K2 万亿参数大模型开源

月之暗面正式发布Kimi K2大模型并宣布开源,同步上线并更新了API,输出价格定为16元人民币/百万token。

前有xAI的Grok 4登场,下周谷歌新Gemini和OpenAI的开源模型也可能接踵而至,大模型技术似乎正站在新的节点上,或许是受到Kimi K2的影响,奥特曼很快发推预告了自家开源模型,但网友对此并不看好。

开源模型信息与初期热度

本次开源的Kimi K2包含两款模型:基础模型Kimi-K2-Base与微调后模型Kimi-K2-Instruct,两者都可以商用,相关技术细节可查看博客( https://moonshotai.github.io/Kimi-K2/ )和GitHub仓库( https://github.com/MoonshotAI/Kimi-K2 )。

根据Hugging Face页面数据,Kimi K2发布后的前20分钟,下载量就接近12K,足见市场对其的关注。

性能表现:开源新标杆,挑战闭源强者

从LiveCode Bench、AIME2025和GPQA-Diamond等多个基准测试结果来看,Kimi K2超过了DeepSeek-V3-0324、Qwen3-235B-A22B等开源模型,成为开源领域的新SOTA( state-of-the-art);同时,在多项性能指标上,它还能赶超GPT-4.1、Claude 4 Opus等闭源模型,展现出领先的知识储备、数学推理与代码能力。

尤其在代码能力上,Kimi K2经住了初步检验,此前Grok 4发布后,测试发现其代码能力不稳定,而Kimi K2的表现则相对亮眼,有网友将其与Claude Code链接使用,效果理想,由于价格低廉,不少人认为它可能成为Claude 4 Sonnet的有力开源平替,甚至有网友称其为“代码模型的DeepSeek时刻”。

HuggingFace联合创始人Thomas Wolf也评价,K2令人难以置信,开源模型正在向最新的闭源权重模型发起挑战。

实际应用:自动调用工具,简化任务流程

Kimi K2在实际应用中展现出自动理解任务环境、自主决定行动的能力,下达任务指令时,用户不用像过去那样为智能体列出详细工作流程,处理复杂任务时,它会自动调用多种工具扩展能力边界,上线后,网友第一时间尝试,收获了不错的体验。

技术突破:从优化器到数据策略的创新

Kimi的技术博客披露了K2训练中的几个关键技术。

• 预训练数据规模达15.5T tokens,且未采用传统的Adam优化器。

• 为解决万亿参数模型训练稳定性不足的问题,引入MuonClip优化器,作为一种优化算法,Muon优化器能帮助神经网络更好收敛,提升模型准确性和性能,今年2月,月之暗面基于Muon优化器推出的高效大模型Moonlight,已证明这类优化器在LLM训练中显著优于广泛使用的AdamW优化器。

在K2开发中,团队进一步扩展Moonlight架构:基于Scaling Laws分析,通过减少Attention Heads数量提升长上下文效率,增加MoE稀疏性提高token利用效率,但扩展中遇到了Attention logits爆炸导致训练不稳定的问题,而现有logit软上限控制和query-key归一化等方案效果有限。

对此,团队在全新的MuonClip中融入自研的qk-clip技术,在Muon更新后直接重新缩放query和key投影组成的权重矩阵,从源头控制Attention logits规模,实现稳定训练,改进后的MuonClip优化器不仅能支持万亿参数级LLM训练,还大幅提升了token效率——这正是业界(如Ilya Sutskever)看重的延续Scaling Laws的关键系数,实验证实,MuonClip有效防止logit爆炸,同时保持下游任务性能,Kimi K2顺利完成15.5T tokens预训练,过程中无任何训练尖峰,形成了一套LLM训练新方法。

• 针对真实工具交互数据稀缺的难题,采用大规模Agentic数据合成策略,让模型学习复杂工具调用(Tool Use)能力。

团队开发了一个受ACEBench启发的综合流程,大规模模拟真实世界工具使用场景:系统性演化出涵盖数百个领域的数千种工具(包括真实MCP工具和合成工具),生成数百个具有多样化工具集的智能体;随后让这些智能体与模拟环境、用户智能体交互,创造逼真的多轮工具使用情景;最后由大语言模型(LLM)充当评判员,根据任务评分标准(rubrics)评估模拟结果,筛选高质量训练数据。

这套可扩展流程生成了多样化、高质量的数据,填补了特定领域或稀缺场景真实数据的空白,同时通过LLM评估筛选,减少了低质量数据对训练的负面影响,为大规模拒绝采样和强化学习奠定基础。

• 引入通用强化学习(General RL),结合RL与自我评价(self-judging)机制,在可验证任务与不可验证任务间架起桥梁。

在数学、编程等可验证任务上,可根据正确答案、任务完成情况等可验证奖励信号持续更新模型能力评估,但传统强化学习依赖明确反馈信号,在生成文本、撰写报告等不可验证任务中,很难给出客观、即时的奖励。

通用强化学习通过自我评价机制,让模型充当自己的评判员(critic),提供可扩展、基于rubrics的反馈,替代外部奖励,解决不可验证任务中奖励稀缺的问题,同时,基于可验证奖励的策略回滚(on-policy rollouts),持续更新评判员,提升其对最新策略的评估准确性。

这种利用可验证奖励改进不可验证奖励估计的方式,让Kimi K2既能高效处理传统可验证任务,又能在主观的不可验证任务中自我评估,推动强化学习向更广泛应用场景扩展,长远来看,这些实践让大模型具备在各种复杂环境中持续优化的能力,可能是未来模型智能水平进化的关键。

行业趋势:从堆参数到算法创新的转向

Kimi K2的发布让人联想到两天前xAI的Grok-4发布会,当时马斯克团队宣传大模型推理能力时,列出了基于通用AI难度最高的测试“人类最后的考试”Humanities Last Exam(HLE)上的几个重要突破节点,其中OpenAI的深度研究、Gemin 2.5 Pro和Kimi-Reseracher都被列为重要突破。

Kimi-Researcher上月刚发布,采用端到端自主强化学习,以结果驱动算法训练,摆脱传统监督微调和基于规则或工作流的方式,探索规划步骤越多,模型性能越强,而Kimi K2则采用了与Grok 4类似的大规模工具调用方式。

受国内算力资源紧缺影响,新一波大模型技术竞争已逐渐放弃单纯堆参数、扩大算力规模的方式,在推动模型SOTA的过程中,通过算法创新降低成本、提升效率成为趋势。

我的笔记