Kimi K2 Thinking的性能與成本分析

【Kimi K2 Thinking“強”在哪裏？】
1. 推理測試得分：在HLE基準評測中，Kimi K2 Thinking取得44.9%的分數（GPT-5爲54.9），在GPQA Diamond測試中取得85.7%的分數（GPT-5爲84.5%），在AIME 2025和HMMT 2025等數學推理任務上也與GPT-5不相上下。
2. 連續工具調用：Kimi K2 Thinking可以在沒有人爲干擾的情況下執行多達200 - 300個連續的工具調用，在數百個步驟中進行連貫的推理。
3. 訓練成本：據知情人士透露，Kimi K2 Thinking的訓練成本爲460萬美元，相比之下DeepSeek稱在其V3模型上花費了560萬美元，OpenAI的GPT-3則花費了數十億美元。
4. 運行成本：Kimi K2 Thinking的API價格是百萬token輸入0.15美元（緩存命中）/0.6美元（緩存未命中），每百萬token輸出2.5美元，比GPT-5低一個數量級（每百萬token輸入1.25美元、輸出10美元）。
5. 超越前任開源王者MiniMax-M2：Kimi K2 Thinking在BrowseComp測試中以60.2%超過M2的44.0%，在SWE-Bench Verified測試中71.3%勝過M2的69.4%。