:::
2025-11-08
Kimi K2 Thinking的性能與成本分析
【Kimi K2 Thinking“強”在哪裏?】
1. 推理測試得分:在HLE基準評測中,Kimi K2 Thinking取得44.9%的分數(GPT-5爲54.9),在GPQA Diamond測試中取得85.7%的分數(GPT-5爲84.5%),在AIME 2025和HMMT 2025等數學推理任務上也與GPT-5不相上下。
2. 連續工具調用:Kimi K2 Thinking可以在沒有人爲干擾的情況下執行多達200 - 300個連續的工具調用,在數百個步驟中進行連貫的推理。
3. 訓練成本:據知情人士透露,Kimi K2 Thinking的訓練成本爲460萬美元,相比之下DeepSeek稱在其V3模型上花費了560萬美元,OpenAI的GPT-3則花費了數十億美元。
4. 運行成本:Kimi K2 Thinking的API價格是百萬token輸入0.15美元(緩存命中)/0.6美元(緩存未命中),每百萬token輸出2.5美元,比GPT-5低一個數量級(每百萬token輸入1.25美元、輸出10美元)。
5. 超越前任開源王者MiniMax-M2:Kimi K2 Thinking在BrowseComp測試中以60.2%超過M2的44.0%,在SWE-Bench Verified測試中71.3%勝過M2的69.4%。
1. 推理測試得分:在HLE基準評測中,Kimi K2 Thinking取得44.9%的分數(GPT-5爲54.9),在GPQA Diamond測試中取得85.7%的分數(GPT-5爲84.5%),在AIME 2025和HMMT 2025等數學推理任務上也與GPT-5不相上下。
2. 連續工具調用:Kimi K2 Thinking可以在沒有人爲干擾的情況下執行多達200 - 300個連續的工具調用,在數百個步驟中進行連貫的推理。
3. 訓練成本:據知情人士透露,Kimi K2 Thinking的訓練成本爲460萬美元,相比之下DeepSeek稱在其V3模型上花費了560萬美元,OpenAI的GPT-3則花費了數十億美元。
4. 運行成本:Kimi K2 Thinking的API價格是百萬token輸入0.15美元(緩存命中)/0.6美元(緩存未命中),每百萬token輸出2.5美元,比GPT-5低一個數量級(每百萬token輸入1.25美元、輸出10美元)。
5. 超越前任開源王者MiniMax-M2:Kimi K2 Thinking在BrowseComp測試中以60.2%超過M2的44.0%,在SWE-Bench Verified測試中71.3%勝過M2的69.4%。
最新市場快訊
19:26:02
19:13:31
18:57:17
18:46:50