(示意圖/取自pixabay)
當地時間 2 月 24 日,DeepSeek 開源周第一個項目 FlashMLA 正式發佈。
據官方介紹,FlashMLA 的靈感來自 FlashAttention 2&3 和 cutlass 項目。具體來說,FlashMLA 是一個針對 Hopper GPU 優化的高效 MLA(Multi-Head Latent Attention)解碼內核,支持變長序列處理,現在已經投入生產使用。
FlashMLA 專門針對多層注意力機制進行了優化,能夠加速 LLM 的解碼過程,從而提高模型的響應速度和吞吐量,而這對於即時生成任務(如聊天機器人、文本生成等)尤為重要。簡而言之,FlashMLA 是一個能讓 LLM 模型在 H800 上跑得更快、更高效的優化方案,尤其適用於高性能 AI 任務。
目前,FlashMLA 已發布版本支持「BF16」與「分頁 KV 緩存,塊大小為 64」兩個特徵,其在 H800 上能實現 3,000 GB/s 的記憶體頻寬與 580 TFLOPS 的運算性能。
FlashMLA 現已上架 GitHub,並且其在上線 6 小時,便收穫逾5,000 的 Star 收藏,擁有 188 個 Fork(副本創建)。
此外,有專注於 AI 硬體研究的投資人通過新浪科技表示,本次 DeepSeek 發布的 FlashMLA 對於國產 GPU 而言,算是一次重大利好。
投資人分析,此前的國產 GPU 性能較弱,如今可以通過 FlashMLA 提供的優化思路和方法論,嘗試讓國產 GPU 大幅提升性能,即使架構不同,後面國產顯卡的推理性能提升將是順理成章的事。
本文為愛范兒授權刊登,原文標題為「DeepSeek 發佈開源項目 FlashMLA」