:::
2025-11-08
Kimi K2 Thinking在推理測試中的卓越表現
【Kimi K2 Thinking在多項推理測試中均超過GPT-5】11月8日訊,GPT-5和Claude Sonnet 4.5 Thinking仍然是領先的思考模型。然而,在相同的基準測試中,Kimi K2 Thinking的代理推理得分超過了兩者:例如,在BrowseComp測試中,K2 Thinking以60.2%的分數絕對領先GPT-5的54.9%和Claude的24.1%。K2 Thinking在GPQA Diamond測試中也以85.7%的分數超過了GPT-5的84.5%,在AIME 2025和HMMT 2025等數學推理任務上也與GPT-5不相上下。
最新市場快訊
16:34:23
16:28:59
16:21:56
16:21:42
16:21:23