DeepSeek開源具有671B個(gè)參數(shù)的新型 AI 模型
人工智能開發(fā)商DeepSeek今天開源了具有6710億個(gè)參數(shù)的全新大型語言模型DeepSeek-V3。
LLM 可以生成文本、編寫軟件代碼并執(zhí)行相關(guān)任務(wù)。DeepSeek 表示,它在六項(xiàng)基準(zhǔn)測試中的表現(xiàn)優(yōu)于市場上最先進(jìn)的兩款開源 LLM。
DeepSeek-V3 基于所謂的混合專家 (MoE) 架構(gòu)。它由多個(gè)神經(jīng)網(wǎng)絡(luò)組成,每個(gè)神經(jīng)網(wǎng)絡(luò)都針對不同的任務(wù)集進(jìn)行了優(yōu)化。當(dāng) DeepSeek-V3 收到提示時(shí),一個(gè)稱為路由器的組件會(huì)將請求發(fā)送到最適合回答該請求的神經(jīng)網(wǎng)絡(luò)。
MoE 架構(gòu)的主要優(yōu)勢在于它降低了硬件成本。向 DeepSeek-V3 發(fā)送提示不會(huì)激活整個(gè) LLM,而只會(huì)激活請求路由到的特定神經(jīng)網(wǎng)絡(luò)。每個(gè)這樣的神經(jīng)網(wǎng)絡(luò)都有 340 億個(gè)參數(shù),這意味著它只需要相對有限的基礎(chǔ)設(shè)施即可運(yùn)行。
除了其優(yōu)點(diǎn)之外,MoE 架構(gòu)也帶來了一些挑戰(zhàn)。在訓(xùn)練過程中,MoE 模型的某些神經(jīng)網(wǎng)絡(luò)會(huì)比其他神經(jīng)網(wǎng)絡(luò)接收更多的訓(xùn)練數(shù)據(jù),這可能會(huì)導(dǎo)致 LLM 的輸出質(zhì)量不一致。DeepSeek 表示,它已經(jīng)開發(fā)出一種緩解這一挑戰(zhàn)的新方法,并將其應(yīng)用于 DeepSeek-V3。
LLM 的訓(xùn)練使用了 14.8 萬億個(gè) token 的信息。一個(gè) token 對應(yīng)幾個(gè)字母或數(shù)字。訓(xùn)練過程耗時(shí) 278.8 萬個(gè)圖形處理單元小時(shí),這意味著它使用的基礎(chǔ)設(shè)施相對較少。業(yè)界最先進(jìn)的 AI 集群擁有數(shù)萬個(gè)或更多的 GPU,可以在幾天內(nèi)完成這樣的訓(xùn)練項(xiàng)目。
除了 MoE 架構(gòu)外,DeepSeek-V3 還配備了多種優(yōu)化功能,旨在提高其輸出質(zhì)量。?
LLM 使用一種稱為注意力的技術(shù)來識(shí)別句子中最重要的細(xì)節(jié)。DeepSeek-3 實(shí)現(xiàn)了多頭潛在注意力,這是該技術(shù)的改進(jìn)版本,允許它從文本片段中提取多次關(guān)鍵細(xì)節(jié),而不是僅提取一次。這使得 LLM 不太可能忽略重要信息。?
DeepSeek-V 還具有所謂的多標(biāo)記預(yù)測功能。語言模型通常一次生成一個(gè)標(biāo)記。相比之下,DeepSeek-V3 一次生成多個(gè)標(biāo)記,從而加快了推理速度。
DeepSeek 通過將其算法與其他三款開源 LLM(上一代 DeepSeek-V2、Llama 3.1 405B 和 Qwen2.5 72B)進(jìn)行比較來測試其算法。DeepSeek-V3 在評估中使用的所有九項(xiàng)編碼和數(shù)學(xué)基準(zhǔn)測試中都取得了更高的分?jǐn)?shù)。它在一系列文本處理任務(wù)中也表現(xiàn)得更好。?
DeepSeek-V3 的代碼可以在Hugging Face上找到。?
-
DeepSeek致謝騰訊技術(shù)團(tuán)隊(duì):這是一次“巨大的加速”代碼貢獻(xiàn)!
DeepSeek致謝騰訊技術(shù)團(tuán)隊(duì),這是一次“巨大的加速”代碼貢獻(xiàn)。據(jù)新浪報(bào)道,騰訊技術(shù)團(tuán)隊(duì)針對DeepSeek開源的DeepEP通信框架進(jìn)行深度優(yōu)化,使其在多種網(wǎng)絡(luò)環(huán)境下均實(shí)現(xiàn)顯著性能提升。經(jīng)測試,優(yōu)
-
深度deepin 23.1正式發(fā)布!AI默認(rèn)引擎切換至DeepSeek
今天,深度操作系統(tǒng)宣布,deepin 23.1版本已正式發(fā)布。此版本聚焦于解決基礎(chǔ)組件更新后的安裝效率問題,大幅提升新用戶安裝體驗(yàn),同時(shí)集成多項(xiàng)功能優(yōu)化與問題修復(fù),進(jìn)一步優(yōu)化系統(tǒng)使用。本次版本的重點(diǎn)改
-
劉慈欣談DeepSeek:完全有可能替代科幻小說作家
日前,2025中國科幻大會(huì)在北京舉辦,主題為“科學(xué)夢想 創(chuàng)造未來”。在大會(huì)論壇上,科幻作家劉慈欣談到了DeepSeek對科幻文學(xué)的驅(qū)動(dòng)和發(fā)展。據(jù)央視財(cái)經(jīng)報(bào)道,對于DeepSeek未來是否有可能替代科幻
關(guān)注公眾號:拾黑(shiheibook)了解更多
友情鏈接:
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/
安全、綠色軟件下載就上極速下載站:https://www.yaorank.com/
- 肖戰(zhàn)代言!榮耀400系列部分版本已售空:供不應(yīng)求
- 《黑神話》投資人3分鐘決定加投1億 不聯(lián)動(dòng)西方游戲
- 智能門鎖咬人事件頻發(fā):部分產(chǎn)品暴露安全隱患
- 波斯王子失落王冠上Steam:含所有免費(fèi)更新
- 開云集團(tuán)預(yù)計(jì)上半年持續(xù)運(yùn)營利潤將下滑40%-45%
- 澳元兌換人民幣匯率2024年1月29日
- cnas認(rèn)證需要多少錢
- 三甲醫(yī)院院長懺悔:“白大褂被染成金黃色”
- 男子面試到一半公司倒閉了
- 網(wǎng)紅安然家暴夢瑤 私生活混亂曾多次侵犯女嘉賓
- 張大大直播哭了
- 魚水之歡是什么意思?

隨時(shí)掌握互聯(lián)網(wǎng)精彩