亚洲欧洲精品专线,国内少妇毛片视频,日本一区二区三区高清无卡,香蕉久久久久久AV综合网成人

DeepSeek開源具有671B個(gè)參數(shù)的新型 AI 模型

業(yè)界 來源:SiliconANGLE 2024-12-29 06:15:33

人工智能開發(fā)商DeepSeek今天開源了具有6710億個(gè)參數(shù)的全新大型語言模型DeepSeek-V3。

LLM 可以生成文本、編寫軟件代碼并執(zhí)行相關(guān)任務(wù)。DeepSeek 表示,它在六項(xiàng)基準(zhǔn)測試中的表現(xiàn)優(yōu)于市場上最先進(jìn)的兩款開源 LLM。

DeepSeek-V3 基于所謂的混合專家 (MoE) 架構(gòu)。它由多個(gè)神經(jīng)網(wǎng)絡(luò)組成,每個(gè)神經(jīng)網(wǎng)絡(luò)都針對不同的任務(wù)集進(jìn)行了優(yōu)化。當(dāng) DeepSeek-V3 收到提示時(shí),一個(gè)稱為路由器的組件會(huì)將請求發(fā)送到最適合回答該請求的神經(jīng)網(wǎng)絡(luò)。

MoE 架構(gòu)的主要優(yōu)勢在于它降低了硬件成本。向 DeepSeek-V3 發(fā)送提示不會(huì)激活整個(gè) LLM,而只會(huì)激活請求路由到的特定神經(jīng)網(wǎng)絡(luò)。每個(gè)這樣的神經(jīng)網(wǎng)絡(luò)都有 340 億個(gè)參數(shù),這意味著它只需要相對有限的基礎(chǔ)設(shè)施即可運(yùn)行。

除了其優(yōu)點(diǎn)之外,MoE 架構(gòu)也帶來了一些挑戰(zhàn)。在訓(xùn)練過程中,MoE 模型的某些神經(jīng)網(wǎng)絡(luò)會(huì)比其他神經(jīng)網(wǎng)絡(luò)接收更多的訓(xùn)練數(shù)據(jù),這可能會(huì)導(dǎo)致 LLM 的輸出質(zhì)量不一致。DeepSeek 表示,它已經(jīng)開發(fā)出一種緩解這一挑戰(zhàn)的新方法,并將其應(yīng)用于 DeepSeek-V3。

LLM 的訓(xùn)練使用了 14.8 萬億個(gè) token 的信息。一個(gè) token 對應(yīng)幾個(gè)字母或數(shù)字。訓(xùn)練過程耗時(shí) 278.8 萬個(gè)圖形處理單元小時(shí),這意味著它使用的基礎(chǔ)設(shè)施相對較少。業(yè)界最先進(jìn)的 AI 集群擁有數(shù)萬個(gè)或更多的 GPU,可以在幾天內(nèi)完成這樣的訓(xùn)練項(xiàng)目。

除了 MoE 架構(gòu)外,DeepSeek-V3 還配備了多種優(yōu)化功能,旨在提高其輸出質(zhì)量。?

LLM 使用一種稱為注意力的技術(shù)來識(shí)別句子中最重要的細(xì)節(jié)。DeepSeek-3 實(shí)現(xiàn)了多頭潛在注意力,這是該技術(shù)的改進(jìn)版本,允許它從文本片段中提取多次關(guān)鍵細(xì)節(jié),而不是僅提取一次。這使得 LLM 不太可能忽略重要信息。?

DeepSeek-V 還具有所謂的多標(biāo)記預(yù)測功能。語言模型通常一次生成一個(gè)標(biāo)記。相比之下,DeepSeek-V3 一次生成多個(gè)標(biāo)記,從而加快了推理速度。

DeepSeek 通過將其算法與其他三款開源 LLM(上一代 DeepSeek-V2、Llama 3.1 405B 和 Qwen2.5 72B)進(jìn)行比較來測試其算法。DeepSeek-V3 在評估中使用的所有九項(xiàng)編碼和數(shù)學(xué)基準(zhǔn)測試中都取得了更高的分?jǐn)?shù)。它在一系列文本處理任務(wù)中也表現(xiàn)得更好。?

DeepSeek-V3 的代碼可以在Hugging Face上找到。?

延伸閱讀
  • DeepSeek致謝騰訊技術(shù)團(tuán)隊(duì):這是一次“巨大的加速”代碼貢獻(xiàn)!

    DeepSeek致謝騰訊技術(shù)團(tuán)隊(duì),這是一次“巨大的加速”代碼貢獻(xiàn)。據(jù)新浪報(bào)道,騰訊技術(shù)團(tuán)隊(duì)針對DeepSeek開源的DeepEP通信框架進(jìn)行深度優(yōu)化,使其在多種網(wǎng)絡(luò)環(huán)境下均實(shí)現(xiàn)顯著性能提升。經(jīng)測試,優(yōu)

  • 深度deepin 23.1正式發(fā)布!AI默認(rèn)引擎切換至DeepSeek

    今天,深度操作系統(tǒng)宣布,deepin 23.1版本已正式發(fā)布。此版本聚焦于解決基礎(chǔ)組件更新后的安裝效率問題,大幅提升新用戶安裝體驗(yàn),同時(shí)集成多項(xiàng)功能優(yōu)化與問題修復(fù),進(jìn)一步優(yōu)化系統(tǒng)使用。本次版本的重點(diǎn)改

  • 劉慈欣談DeepSeek:完全有可能替代科幻小說作家

    日前,2025中國科幻大會(huì)在北京舉辦,主題為“科學(xué)夢想 創(chuàng)造未來”。在大會(huì)論壇上,科幻作家劉慈欣談到了DeepSeek對科幻文學(xué)的驅(qū)動(dòng)和發(fā)展。據(jù)央視財(cái)經(jīng)報(bào)道,對于DeepSeek未來是否有可能替代科幻

關(guān)注公眾號:拾黑(shiheibook)了解更多

友情鏈接:

關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/
安全、綠色軟件下載就上極速下載站:https://www.yaorank.com/

公眾號 關(guān)注網(wǎng)絡(luò)尖刀微信公眾號
隨時(shí)掌握互聯(lián)網(wǎng)精彩
贊助鏈接