亚洲欧洲精品专线,国内少妇毛片视频,日本一区二区三区高清无卡,香蕉久久久久久AV综合网成人

馬斯克的Grok3實測翻車!無法回答9.11和9.9哪個大

業(yè)界 來源:游民星空 2025-02-19 16:05:04

北京時間 2 月 18 日,馬斯克與 xAI 團隊,在直播中正式發(fā)布了 Grok 最新版本 Grok3。早在本次發(fā)布會之前,依靠著種種相關(guān)信息的拋出,加上馬斯克本人 24/7 不間斷的預(yù)熱炒作,讓全球?qū)?Grok3 的期待值被拉到了空前的程度。在一周前,馬斯克在直播中評論 DeepSeek R1 時,還信心滿滿地表示「xAI 即將推出更優(yōu)秀的 AI 模型」。從現(xiàn)場展示的數(shù)據(jù)來看,Grok3 在數(shù)學(xué)、科學(xué)與編程的基準(zhǔn)測試上已經(jīng)超越了目前所有的主流模型,馬斯克甚至宣稱 Grok 3 未來將用于 SpaceX 火星任務(wù)計算,并預(yù)測「三年內(nèi)將實現(xiàn)諾貝爾獎級別突破」。

但這些目前都只是馬斯克的一家之言。筆者在發(fā)布后,就測試了最新的 Beta 版 Grok3,并提出了那個經(jīng)典的用來刁難大模型的問題:「9.11 與 9.9 哪個大?」遺憾的是,在不加任何定語以及標(biāo)注的情況下,號稱目前最聰明的 Grok3,仍然無法正確回答這個問題。

在這個測試發(fā)出之后,很短的時間內(nèi)迅速引發(fā)了不少朋友的關(guān)注,無獨有偶,在海外也有很多類似問題的測試,例如「比薩斜塔上兩個球哪個先落下」這些基礎(chǔ)物理/數(shù)學(xué)問題,Grok3 也被發(fā)現(xiàn)仍然無法應(yīng)對。因此被戲稱為「天才不愿意回答簡單問題」。

除了網(wǎng)友自發(fā)測試的這些基礎(chǔ)知識上 Grok3 出現(xiàn)了翻車,在 xAI 發(fā)布會直播中,馬斯克演示使用 Grok3 來分析他號稱經(jīng)常玩的 Path of Exile 2 (流放之路 2) 對應(yīng)的職業(yè)與升華效果,但實際上 Grok3 給出的對應(yīng)答案絕大部分都是錯誤的。直播中的馬斯克并沒有看出這個明顯的問題。

因此這個失誤不僅成為了海外網(wǎng)友再次嘲諷馬斯克打游戲「找代練」的實錘證據(jù),同時也為 Grok3 在實際應(yīng)用中的可靠性,再次打上了一個大大的問號。

雖然在分數(shù)上,Grok3 超過了目前公開測試的所有模型,但這一點并不被很多人買賬:畢竟 xAI 在 Grok2 時代就有在這個榜單中「刷分」,隨著榜單對回答長度風(fēng)格做降權(quán)處理而大幅降低分數(shù)的情況,因此經(jīng)常被業(yè)內(nèi)人士詬病「高分低能」。

延伸閱讀
  • 馬斯克推出全新XChat:具備加密、音視頻通話、消息自毀功能

    馬斯克今日在社交平臺發(fā)文稱,全新XChat已推出,具備加密功能、消息自毀功能以及發(fā)送任何類型文件的能力,還支持音視頻通話。馬斯克特別提到,全新XChat基于Rust語言構(gòu)建,采用“類似比特幣”的加密技

  • 星艦試飛失敗:泄漏致飛船爆炸解體

    當(dāng)?shù)貢r間5月27日,美國太空探索技術(shù)公司(SpaceX)稱與“星艦”失去了聯(lián)系。目前尚不清楚飛行器具體是在何處解體并墜落。馬斯克隨后在X上發(fā)帖表示:“星艦成功完成預(yù)定主發(fā)動機關(guān)機程序,較上次試飛取得重

  • 馬斯克的星鏈被質(zhì)疑成電詐幫兇

    界面新聞記者 | 宋佳楠5月8日,據(jù)《環(huán)球時報》援引新加坡亞洲新聞臺消息稱,馬斯克的“星鏈”衛(wèi)星互聯(lián)網(wǎng)設(shè)備被東南亞的電詐園區(qū)廣泛利用,對多國執(zhí)法部門的反詐工作造成不利影響。截至發(fā)稿,“星鏈”所屬的Sp

關(guān)注公眾號:拾黑(shiheibook)了解更多

友情鏈接:

關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/
安全、綠色軟件下載就上極速下載站:https://www.yaorank.com/

公眾號 關(guān)注網(wǎng)絡(luò)尖刀微信公眾號
隨時掌握互聯(lián)網(wǎng)精彩
贊助鏈接