DeepSeek推出FlashMLA項目 可以顯著降低內存占用和計算開銷
開源人工智能技術開發(fā)商 DeepSeek 上周已經預告將在本周陸續(xù)推出 5 個已經在生產環(huán)境中使用的技術,目前首個項目 FlashMLA 已經在 GitHub 上公布。
FlashMLA 是一種針對 NVIDIA Grace Hopper 架構 GPU 設計的高效多層注意力 (Multi-Layer Attention,MLA) 解碼內核,該技術不僅可以優(yōu)化變長序列的處理性能,還可以將低內存占用和計算開銷。
該技術的關鍵特點包括:
BF16 支持:FlashMLA 采用 BF16 精度格式,兼顧 FP32 的動態(tài)范圍和 FP16 的計算效率,這種設計可以顯著降低內存占用和計算開銷,特別適合深度學習模型的推理階段。
分頁 KV 緩存技術:Paged KV Cache 通過塊大小為 64 的分頁鍵緩存系統(tǒng),F(xiàn)lashMLA 優(yōu)化了 Transformer 模型中鍵值對的存儲和訪問,減少內存碎片和延遲等,這項技術主要是和處理變長序列,確保在不同輸入長度下都能保持高效性能。
卓越性能:在 NVIDIA H800 GPU 上,F(xiàn)lashMLA 實現(xiàn)了 3000GB / 秒的內存帶寬利用率 (內存限制場景) 和 580TFLOPS 的計算能力 (計算限制場景),數(shù)據(jù)表明 FlashMLA 可以充分利用 Hopper 架構的 HBM 高帶寬內存和并行計算能力。
FlashMLA 優(yōu)化變長序列帶來的優(yōu)勢:
變長序列是自然語言處理、語音識別、時間序列分析等領域面臨的常見技術挑戰(zhàn),傳統(tǒng)模型在處理不固定長度的輸入時往往效率會比較低,F(xiàn)lashMLA 通過針對性優(yōu)化可以提高大型模型在變長序列場景下的推理速度,因此適合用于需要實時響應和高吞吐量的應用。
也就是說借助這項優(yōu)勢未來其他模型也可以優(yōu)化響應速度,尤其是實時語音模式這種對響應速度有要求的場景,AI 可以更快的回答而不是讓用戶長時間等待。
目前 FlashMLA 已經在 GitHub 上完全開源,開發(fā)者只需要使用簡單的 Python 命令即可快速部署,DeepSeek 也提供了測試腳本用來驗證性能:https://github.com/deepseek-ai/FlashMLA
該項目的開源特性還借鑒了 FlashAttention 2&3 以及 CUTLASS 項目的模塊化設計,有興趣的開發(fā)者也可以研究上游項目的具體細節(jié)。
-
OpenAI將修復ChatGPT過于諂媚的問題 雖然部分用戶認為這似乎不是問題
如果你最近使用 ChatGPT 可能會發(fā)現(xiàn)該應用似乎有些過于諂媚和奉承用戶,這種情況并非只有部分用戶碰到,而是 GPT-4o 模型的最近更新導致其過于迎合大眾。Sam Altman 表示最近幾次 GP
-
GitHub實施更嚴格的風控規(guī)則阻止中文用戶訪問 疑似是為了反爬蟲和反抓取
早前 GitHub 因為失誤部署了屏蔽所有中國 IP 地址的規(guī)則,中國 IP 地址訪問時會出現(xiàn)禁止訪問提示,隨后 GitHub 更新規(guī)則并解釋是部署錯誤,更新規(guī)則后中國 IP 地址可以重新訪問。如果之
-
Perplexity AI將推出Comet瀏覽器 全方位追蹤用戶數(shù)據(jù)并提供精準廣告
人工智能初創(chuàng)公司 Perplexity AI 日前透露他們正在開發(fā)自己的瀏覽器,開發(fā)瀏覽器的原因是可以借助瀏覽器全方位收集用戶信息,而不是現(xiàn)在這樣只能利用 Perplexity AI 收集的用戶信息。
關注公眾號:拾黑(shiheibook)了解更多
友情鏈接:
關注數(shù)據(jù)與安全,洞悉企業(yè)級服務市場:https://www.ijiandao.com/
安全、綠色軟件下載就上極速下載站:https://www.yaorank.com/