:::
2026-01-01
新架構mHC的提出及其對大模型訓練穩定性的影響
【DeepSeek發佈梁文鋒署名新論文:提出mHC新架構 提升大模型訓練穩定性】1月1日訊,DeepSeek發佈新論文,提出了一種名爲流形約束超連接(mHC)的新架構,旨在解決超連接網絡(HC)技術因破壞恆等映射特性而導致的訓練不穩定和可擴展性受限等問題。該架構通過將HC的殘差連接空間映射至特定流形以恢復恆等映射特性,同時結合嚴格的基礎設施優化以確保效率,實現了顯著的性能改進和優越的可擴展性。DeepSeek預計,mHC作爲HC的一種靈活實用拓展,將有助於更深入地理解拓撲架構設計,併爲基座模型的演進指明有前景的方向。該論文由Zhenda Xie(解振達)、Yixuan Wei(韋毅軒)、Huanqi Cao共同擔任第一作者,梁文鋒也在作者名單之中。
最新市場快訊
19:25:47
19:25:42
19:22:18