DeepSeek第二炸!開(kāi)源首個(gè)用于MoE模型訓(xùn)練通信庫(kù)
DeepSeek 的“開(kāi)源周”活動(dòng)今日已經(jīng)來(lái)到第二天,今天發(fā)布的是首個(gè)開(kāi)源的用于 MoE 模型訓(xùn)練和推理的 EP 通信庫(kù) ——DeepEP。
官方表示其具備如下特征:
高效優(yōu)化的全到全通信方式
支持節(jié)點(diǎn)內(nèi)外通信,兼容 NVLink 和 RDMA 技術(shù)
提供高吞吐量的內(nèi)核,提升訓(xùn)練和推理前期填充效率
提供低延遲內(nèi)核,優(yōu)化推理解碼速度
完全支持 FP8 數(shù)據(jù)格式調(diào)度
提供靈活的 GPU 資源管理,支持計(jì)算與通信的重疊執(zhí)行
據(jù)介紹,DeepEP 是一款專為混合專家(MoE)和專家并行(EP)設(shè)計(jì)的通信庫(kù),提供了高吞吐量和低延遲的 all-to-all GPU 內(nèi)核,常用于 MoE 派發(fā)和合并操作。該庫(kù)還支持低精度計(jì)算,包括 FP8。
為了與 DeepSeek-V3 論文中提出的組限制門(mén)控算法兼容,DeepEP 提供了一些針對(duì)不對(duì)稱帶寬轉(zhuǎn)發(fā)優(yōu)化的內(nèi)核,比如將數(shù)據(jù)從 NVLink 域轉(zhuǎn)發(fā)到 RDMA 域。這些優(yōu)化的內(nèi)核能夠提供高吞吐量,適合用于訓(xùn)練和推理的預(yù)填充任務(wù),同時(shí)支持 SM(流式多處理器)數(shù)量控制。
對(duì)于延遲敏感型的推理解碼任務(wù),DeepEP 提供了一套低延遲內(nèi)核,采用純 RDMA 技術(shù)以最大程度減少延遲。此外,該庫(kù)還采用了一種基于 Hook 的通信與計(jì)算重疊方法,不會(huì)占用任何 SM 資源。
-
《傳說(shuō)之下》作者新作《三角符文》IGN 9分:劇情精彩絕倫 配樂(lè)一流!
曾創(chuàng)作過(guò)人氣RPG獨(dú)立游戲《傳說(shuō)之下》的制作人tobyfox最新作品《三角符文》(Deltarune)現(xiàn)已正式發(fā)售,目前游戲只有1-4章,后續(xù)章節(jié)未來(lái)將免費(fèi)追加更新。IGN給出了9分的高分,認(rèn)為本作雖
-
泡泡瑪特創(chuàng)始人王寧財(cái)富躋身中國(guó)第十 股價(jià)2024年至今漲幅超11倍
繼6月8日以203億美元身家超越牧原股份的秦英林,登頂“河南新首富”之后,泡泡瑪特(09992.HK)創(chuàng)始人王寧9日財(cái)富排名再度攀升。根據(jù)福布斯實(shí)時(shí)富豪榜6月9日上午的最新數(shù)據(jù),王寧目前身家為208億
-
《劍星》豐滿伊芙MOD:各部位都大了好幾圈!
WaterWeightMate制作了一款《劍星》的MOD,將游戲主角伊芙的07 Planet戰(zhàn)衣的各個(gè)部位包括胸部、臀部、大腿進(jìn)行了放大膨脹處理,讓伊芙的整個(gè)形態(tài)看起來(lái)都非常的豐滿。
關(guān)注公眾號(hào):拾黑(shiheibook)了解更多
友情鏈接:
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/
安全、綠色軟件下載就上極速下載站:https://www.yaorank.com/
- HyperX先鋒75無(wú)線機(jī)械鍵盤(pán)上市:2代線性軸體
- 《暗黑破壞神4:憎恨之軀》IGN 8分 MC評(píng)分86分
- 日元貶值 外國(guó)游客趁機(jī)到日本買黃金珠寶
- 董明珠談企業(yè)不招35歲員工:你可以選擇去創(chuàng)業(yè)
- 董明珠:建議上市公司高管任期內(nèi)不得減持公司股票
- 《我被美女包圍了》大火!女主演員抖音號(hào)盤(pán)點(diǎn)
- 伍佰演唱會(huì)麥克風(fēng)都不拿了
- Prada恐怕又要流眼淚 蔡徐坤被爆與女方一夜情致懷孕
- 大學(xué)摘10萬(wàn)斤荔枝請(qǐng)學(xué)生免費(fèi)吃
- 柚子貓Yuzukitty糖心簡(jiǎn)介
- 林夏薇穿低胸長(zhǎng)裙分衩至臀部性感噴血
- 這款貴腐一出,你就是姐妹中的“酒神”

隨時(shí)掌握互聯(lián)網(wǎng)精彩