亚洲欧洲精品专线,国内少妇毛片视频,日本一区二区三区高清无卡,香蕉久久久久久AV综合网成人

維基百科附屬的維基媒體被AI爬蟲轟炸 超過65%的昂貴網(wǎng)絡(luò)流量由AI爬蟲消耗

業(yè)界 來源:藍(lán)點(diǎn)網(wǎng) 2025-04-04 20:59:04

維基百科附屬的媒體資源共享項(xiàng)目維基媒體目前正在被 AI 爬蟲轟炸,維基媒體項(xiàng)目托管著 1.44 億張圖片、視頻和其他文件,這些寶貴的媒體文件被人工智能公司盯上用于訓(xùn)練 AI 模型。

這些 AI 爬蟲數(shù)量非常多且抓取方式與正常人類訪問不同,這消耗了維基媒體大量昂貴的服務(wù)器帶寬,為了解決這些問題維基媒體正在采取行動,避免被 AI 爬蟲持續(xù)性的消耗資源。

非人類訪問導(dǎo)致帶寬增加 50%:

維基媒體在博客中表示,自 2024 年 1 月以來用于下載多媒體內(nèi)容的帶寬增長 50%,這些增長并非來自人類讀者,而是由自動化程序造成的,這些自動化程序也就是爬蟲會抓取 Wikimedia Commons 圖像目錄中公開許可的圖像,用來訓(xùn)練 AI 模型。

維基媒體的基礎(chǔ)設(shè)施旨在承受高關(guān)注事件期間人類流量的突然激增,但抓取機(jī)器人產(chǎn)生的流量是前所未有的,并且?guī)砹嗽絹碓酱蟮娘L(fēng)險(xiǎn)和成本。

自 2024 年年初以來維基媒體的基本帶寬需求穩(wěn)步增長并且沒有放緩的跡象,基線使用量的增加意味著當(dāng)流量激增時(shí),維基媒體將沒有足夠的空間來應(yīng)對可能發(fā)生的異常事件:大量時(shí)間和資源用于應(yīng)對非人類流量。

最昂貴的帶寬中有 65% 被爬蟲消耗:

維基媒體通過全球數(shù)據(jù)中心網(wǎng)絡(luò)為用戶提供加速訪問,當(dāng)某個內(nèi)容被多次訪問時(shí)維基百科會將其緩存到離用戶最近的數(shù)據(jù)中心,如果某個內(nèi)容是冷門內(nèi)容訪問次數(shù)不高則不會被緩存,當(dāng)被人類訪問時(shí)需要從核心數(shù)據(jù)中心拉取數(shù)據(jù),同時(shí)將數(shù)據(jù)緩存在區(qū)域數(shù)據(jù)中心供該區(qū)域的其他用戶訪問。

通常情況下人類讀者傾向于關(guān)注特定的主題,這些主題通常還是相似的,而 AI 爬蟲則傾向于批量讀取大量頁面并且包含大量不是那么受歡迎的頁面,這意味著機(jī)器人發(fā)出的請求更有可能被轉(zhuǎn)發(fā)到核心數(shù)據(jù)中心并從核心數(shù)據(jù)中心里拉取數(shù)據(jù)。

核心數(shù)據(jù)中心的帶寬是非常昂貴的,在進(jìn)行系統(tǒng)遷移時(shí)維基媒體團(tuán)隊(duì)注意到消耗核心數(shù)據(jù)中心帶寬的請求中有 65% 來自機(jī)器人,也就是人類用戶的訪問比例被擠占到只有 35%,爬蟲帶來的高流量甚至?xí)绊懭祟愑脩舻恼鎸?shí)訪問。

維基媒體在年度計(jì)劃草案中提到 WE5 負(fù)責(zé)任的使用基礎(chǔ)設(shè)施,維基媒體認(rèn)為他們的內(nèi)容是免費(fèi)的但基礎(chǔ)設(shè)施不是,現(xiàn)在必須采取行動重新建立健康的平衡,避免 AI 爬蟲消耗維基媒體項(xiàng)目、貢獻(xiàn)者和讀者所需的時(shí)間和資源。

延伸閱讀

關(guān)注公眾號:拾黑(shiheibook)了解更多

友情鏈接:

關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/
安全、綠色軟件下載就上極速下載站:https://www.yaorank.com/

公眾號 關(guān)注網(wǎng)絡(luò)尖刀微信公眾號
隨時(shí)掌握互聯(lián)網(wǎng)精彩
贊助鏈接