新版 Kimi 突然发布！首个万亿开源模型不是 R2 是 K2，OpenAI 临时推迟开源

新版 Kimi 突然发布！首个万亿开源模型不是 R2 是 K2，OpenAI 临时推迟开源 | 附实测体验

创始人

2025-07-12 13:18:26

0次

不到半年，国产开源大模型的牌局已经翻了一轮。

年初还是「AI 六小虎」齐头并进，如今却只剩寥寥几家还能站上牌桌。DeepSeek 一招「开源即发布」，凭借高性能和极致性价比迅速占据用户的心智，也顺势拿下了国产大模型开源叙事的话语权。

此后，六小虎中不少公司接连遭遇融资受阻、产品停更、团队重组，甚至逐渐淡出公众视野。与此同时，当 DeepSeek 把开源模型卷出了实用门槛，也让其他玩家不得不加速入局。

今天，轮到 Kimi 接棒出手，正式发布并开源 Kimi K2 模型。

Kimi-K2-Base：未经过指令微调的基础预训练模型，适合科研与自定义场景；

Kimi-K2-Instruct：通用指令微调版本（非思考模型），擅长大多数问答与 Agent 任务

官方介绍称，Kimi K2 基于 MoE 架构打造，参数总规模达 1T，激活参数 32B，在代码生成、Agent 调度、数学推理等任务中具备竞争力。

在 SWE Bench Verified、Tau2、AceBench 等基准测试中，K2 均取得开源模型中的 SOTA 成绩。其中，自主编程（Agentic Coding）、工具调用（Tool Use）和数学推理（Math & Reasoning）三大能力维度都有不错的表现。

值得注意的是，上述评测中的所有模型均为非思考模型。在 Tau2-Bench 测试中，平均值按照任务加权计算。在 Swe-Bench 多语言测试中，仅评估了 Claude 4 Sonnet，因为 Claude 4 Opus 的成本过高。

实际体验下来，写作能力的提升是这次版本升级中比较明显的一环。

比如面对「描写一个夏天的午后，一碗西瓜、一个电风扇、一张旧沙发。要求不出现『热』字，也不直接写『我很舒服』，要让人读出闷热与松弛」时，K2 给出的文本既有画面感，又不失情绪的克制表达。语言克制、节奏松弛，甚至带有文学感。

再比如这个相对复杂的案例：「写一篇看似是『在便利店偶遇前任』的平淡故事，但要隐藏一个副线：主角其实身患重病，正在做最后的生活整理。请控制情绪层次，不能直说，结尾只用一句隐喻点明真相。」

K2 完全没有写出生病或死亡字眼，而是通过道具、行为、细节缓缓推进情绪张力。故事结构完整，结尾一瓶未开的汽水安静地躺在垃圾桶顶端，成为情绪隐线的收束。令我惊喜的是，甚至还补上了人物小传。

上下更多内容

不过，隐喻密度偏高且引用并不合理，却也犯了和 DeepSeek 同样的毛病，尤其少量句式略显设计感过重，仍有提升的空间。

在 Agent/Coding 任务上，Kimi K2 宣称支持 ToolCall 架构，可无缝接入 Owl、Cline、RooCode 等主流框架，具备自动指令拆解和任务链构建能力。目前 Agent 能力已开放 API 使用。

在编程类任务上，K2 虽然整体完成度高，但瑕疵也比较明显，比如还是那个经典的天气卡片案例，Kimi 能完成基础的构建，但 UI 粗糙、动效生硬，在视觉体验上逊色不少。

再拉高难度，我要求生成一个按周划分的前端学习计划，输出为 HTML 页面，支持模块展开与收起交互。这一任务对结构组织、内容节奏和 JS 逻辑的要求更高。K2 给出的结果中规中矩。

我输入任务：「用 three.js 和 cannon-es.js 实现烟囱倒塌爆破效果」。K2 尝试联网查找资料并组合代码，整体思路在线，执行力尚可，但视觉效果依然较弱。

当然，也有一些比较不错的案例。比如海外博主 @chetaslua 使用提示词「make a website that shows 3D Simulation of Asteroids hitting Earth in html」，产出效果更为成熟，得到的画面如下：

由于 K2 兼容 OpenAI 和 Anthropic 的 API 协议，网友 @Khazzz1c 也使用 K2 在 Claude Code 上开发了一个打字游戏，并评价这个模型「cracked AF」，这是俚语，意思是「强到离谱、好得不正常」。

在 Kimi K2 背后，是月之暗面 Kimi 团队自研的一整套技术路径。

技术博客显示，他们在训练万亿参数大模型时，摒弃传统的 Adam 优化器，改用自研的 Muon 体系，并引入 MuonClip 机制，有效缓解 attention logits 过大的问题，从而确保模型在 15.5T token 训练过程中无一次 loss spike，训练稳定性和 token 使用效率双双提升。

同时，团队还构建了一条可大规模生成多轮工具使用场景的数据合成 pipeline，覆盖数百领域、数千种工具，并且，训练样本则由 LLM 自动筛选评估，确保数据质量。

在训练策略上，Kimi K2 进一步强化了通用强化学习能力，不仅在代码、数学等可验证任务上进行强化学习，还通过「自我评价」机制解决奖励稀缺问题，显著增强了模型的泛化能力。

开源层面，Kimi K2 的 Instruct 模型及 FP8 权重文件已上传至 Hugging Face，（传送门：https://huggingface.co/moonshotai/Kimi-K2-Instruct）根据官方部署说明，Kimi K2 的 FP8 版本可在主流 H200 等平台上运行，支持最长 128K 上下文，最低部署要求为 16 张 GPU 的集群环境。

目前包括 vLLM、SGLang、ktransformers 在内的主流推理引擎均已支持该模型，部署路径已被打通，但对普通开发者而言，算力的门槛仍不容忽视。

商业化方面，Kimi K2 的 API 服务也已正式上线，提供最长 128K 上下文支持，定价为每百万输入 tokens 收费 4 元、输出 tokens 收费 16 元。

而有趣的是，与 Kimi 的大方开源相比，OpenAI CEO Sam Altman 刚刚宣布推迟原定下周发布的开放权重模型，理由是仍需补充安全测试与高风险区域审查，且未确定延期时长。

这么一对比，Kimi 还是敞亮太多了。

我们正在招募伙伴

📮 简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」（请随简历附上项目/作品或

上一篇：原创 Ruler采访表示，BLG和T1是最大对手，并不觉得AL有多强

下一篇：BW2025雕宅首日狂欢，技嘉AORUS梦想主场引爆电竞狂潮

新版 Kimi 突然发布！首个万亿开源模型不是 R2 是 K2，OpenAI 临时推迟开源 | 附实测体验

相关内容

热门资讯