:::
2026-04-07
阿里通義實驗室推出新算法FIPO,提升智能計算性能
【阿里通義實驗室智能計算團隊推出新算法FIPO】4月7日訊,4月7日,阿里通義實驗室智能計算團隊宣佈推出新算法FIPO(Future-KL Influenced Policy Optimization),引入Future-KL機制,獎勵關鍵Token,解決純強化學習(Pure RL)訓練中“推理長度停滯”難題。據該團隊介紹,在32B規模的純RL設定下,率先實現對o1-mini與同規模DeepSeek-Zero-MATH的性能反超。
最新市場快訊
01:49:37
01:46:32
01:41:04
01:40:09
01:32:50