挑戰(zhàn)高考數(shù)學(xué)卷,DeepSeek-R1、騰訊混元T1、Grok 3等十大模型測評(píng)來了
2025年高考大幕雖已落下,但關(guān)于數(shù)學(xué)科目難度的討論熱度不減。?
《每日經(jīng)濟(jì)新聞》記者(以下簡稱“每經(jīng)記者”)選取今年的全國新課標(biāo)數(shù)學(xué)I卷作為考題,對(duì)DeepSeek-R1、騰訊元寶(混元T1)、OpenAI的o3、谷歌的Gemini 2.5 Pro和xAI的Grok3等十款A(yù)I推理大模型進(jìn)行了測評(píng),以檢驗(yàn)當(dāng)今主流AI推理大模型的數(shù)學(xué)能力。
測評(píng)結(jié)果顯示,國產(chǎn)大模型DeepSeek-R1與騰訊混元T1以零錯(cuò)誤并列榜首。而被馬斯克稱為“地表最強(qiáng)AI”的Grok 3卻遭遇“滑鐵盧”,排名倒數(shù)第三。
測評(píng)標(biāo)準(zhǔn)
本次測評(píng)以2025年全國新課標(biāo)數(shù)學(xué)I卷(總分150分)作為考題。但每經(jīng)記者在測試中發(fā)現(xiàn),部分AI推理模型以“重要考試期間”為由拒絕對(duì)包含試題的圖片進(jìn)行識(shí)別和解答。
為了讓所有參評(píng)大模型站在同一起跑線,測評(píng)移除了試卷中所有需要分析圖形和圖表的題目,形成一份有效總分為117分的標(biāo)準(zhǔn)化試卷。
同時(shí),對(duì)于谷歌Gemini 2.5 Pro等沒有這一限制的推理模型,仍將以150分的完整試卷進(jìn)行測試,旨在測試推理大模型所能達(dá)到的最高水平。
扣分標(biāo)準(zhǔn)上,每經(jīng)記者在選擇題和填空題上都遵循了高考評(píng)卷的扣分標(biāo)準(zhǔn),但對(duì)于解答題,本次測評(píng)只根據(jù)結(jié)果計(jì)算得分,不對(duì)過程打分。
需要說明的是,在此次測試中,每款推理大模型只進(jìn)行單次測試,得分也僅反映單次測試的結(jié)果。
DeepSeek-R1和騰訊混元T1并列第一
在排除了圖形/圖表題的117分試卷測試中,DeepSeek-R1與騰訊混元T1展現(xiàn)出了絕對(duì)的優(yōu)勢,以零錯(cuò)誤的完美表現(xiàn),取得了117分的滿分成績,并列第一。這表明,在代數(shù)計(jì)算和函數(shù)題等題型解答上,其能力已經(jīng)達(dá)到了極高的水準(zhǔn)和穩(wěn)定性。
訊飛星火X1以112分的成績緊隨其后。相較于DeepSeek-R1與騰訊混元T1這兩款大模型,訊飛星火X1多錯(cuò)了一道填空題。這道題的正確答案是“±2”,而訊飛星火X1給出的答案是“2”。實(shí)際上,該模型的推理過程沒有問題,認(rèn)為“2”和“-2”都滿足題目條件,但陷入自我懷疑,最終只給出了答案“2”。
訊飛星火X1的推理過程?
其他得分超過100分的還有Gemini 2.5 Pro(109分)、o3(107分)、阿里千問Qwen3(106分)和豆包深度思考模式(104分)。在分?jǐn)?shù)占比最高的解答題上,Gemini 2.5 Pro和o3均有失誤,其中一道大題僅有部分正確,而阿里千問Qwen3和豆包深度思考模式均拿下滿分。?
Grok 3慘遭“滑鐵盧”,排名倒數(shù)第三
在本次參評(píng)的所有AI推理大模型中,如果說有誰的結(jié)果最令人意外,那無疑是馬斯克旗下xAI公司開發(fā)的、被馬斯克稱為“地表最強(qiáng)AI”的Grok 3。?
Grok在發(fā)布之初就被市場寄予厚望,被認(rèn)為是最有潛力挑戰(zhàn)GPT和Gemini霸主地位的“黑馬”。馬斯克多次暗示,Grok的目標(biāo)是成為最強(qiáng)大的AI。?
然而,Grok 3此次的表現(xiàn)可以說是遭遇了“滑鐵盧”。在117分的試題測試中,Grok 3僅獲得91分,在10個(gè)參與測試的推理大模型中排名倒數(shù)第三。
深入分析其答卷,每經(jīng)記者發(fā)現(xiàn),Grok 3失分的一個(gè)獨(dú)特且關(guān)鍵的原因:它似乎無法正確理解多選題這類題型。
測試過程顯示,即使在記者提示題目為多選題的情況下,Grok 3也“頑固”地只給出一個(gè)它認(rèn)為的最優(yōu)解,導(dǎo)致只能得到部分分?jǐn)?shù)。?
排名倒數(shù)第二的是智譜清言推理模式,在117分試卷的測試中得分為78分。
實(shí)際上,該模型在多道題目的推理過程中都找到了正確答案,但是往往會(huì)在最后一步出現(xiàn)自我懷疑導(dǎo)致邏輯崩潰,陷入循環(huán),最終功虧一簣,白白丟了很多分。
智譜清言推理模式解答過程截圖
排在最末尾的是Kimi k1.5,該模型在最后兩道壓軸大題上栽了大跟頭,損失了大量的分?jǐn)?shù)。?
綜合所有測試情況來看,在處理有固定步驟和嚴(yán)密邏輯的數(shù)學(xué)問題上,AI推理大模型已經(jīng)具備很強(qiáng)的能力。但在涉及抽象和創(chuàng)新思維的題目上,目前的大模型還存在一定的局限性。
-
93年美女董事長突然刷屏 高顏值被稱最美光伏“二代”
據(jù)每日經(jīng)濟(jì)新聞報(bào)道,近日,天合光能實(shí)控人、董事長高紀(jì)凡的女兒高海純走向臺(tái)前,32歲的她成為市值超400億元的天合光能聯(lián)席董事長,兼任公司解決方案事業(yè)群總裁。光伏“二代”們正密集接班。高海純出生于199
-
廣州一豪宅賣出4.61億元 刷新中國內(nèi)地單套住宅售價(jià)新紀(jì)錄
據(jù)每日經(jīng)濟(jì)新聞報(bào)道,日前,位于廣州珠江新城的僑鑫匯悅臺(tái)網(wǎng)簽了一套復(fù)式大房源,單價(jià)近37萬元/平方米,單套總價(jià)高達(dá)4.61億元。這一總價(jià)不僅刷新了匯悅臺(tái)2021年超3億元的成交總價(jià)最高紀(jì)錄,也再次刷新中
-
拓維信息聯(lián)合創(chuàng)始人因家暴被提起公訴 回應(yīng):不參與公司經(jīng)營管理
知情人士消息,上市公司拓維信息聯(lián)合創(chuàng)始人、第二大股東宋某被妻子劉某指控家暴一案,長沙市雨花區(qū)檢察院已向長沙市雨花區(qū)法院提起公訴,檢方稱應(yīng)以故意傷害罪追究宋某刑責(zé)。記者就公司聯(lián)合創(chuàng)始人被提起公訴一事與拓
關(guān)注公眾號(hào):拾黑(shiheibook)了解更多
友情鏈接:
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場:https://www.ijiandao.com/
安全、綠色軟件下載就上極速下載站:https://www.yaorank.com/
- 門都不打開汽車靜態(tài)展示看啥?小米汽車客服回應(yīng)
- 公積金貸款利率降0.25個(gè)百分點(diǎn)
- 客服回應(yīng)蘋果相冊改回來了 網(wǎng)友直呼“蘋果終于聽勸了”
- 烏克蘭美女Cos影心圖賞:顏值高 身材火辣
- 微信訂閱號(hào)灰度測試快訊服務(wù):為用戶推送突發(fā)新聞
- 羅氏雙特異性抗體Vabysmo再獲美國FDA批準(zhǔn)
- 加幣兌換人民幣匯率2024年2月28日
- 港幣對(duì)人民幣匯率2024年1月6日
- 鴻蒙不兼容安卓應(yīng)用:也要有PC版!華為自研系統(tǒng)發(fā)大招
- 板栗怎么去皮和殼小妙招
- 學(xué)生陽性帶病上崗猝死?校方通報(bào)
- 買回家的泡芙軟趴趴?還能拯救一下!

隨時(shí)掌握互聯(lián)網(wǎng)精彩