您現在的位置是:新聞中心 >>正文
七款AI大模型“高考成績(jì)” 前三名文科過(guò)一本
新聞中心92人已圍觀(guān)
簡(jiǎn)介IT之家7月18日消息,上海人工智能實(shí)驗室17日公布了針對7個(gè)AI大模型的高考全科目測試結果,據大模型開(kāi)源開(kāi)放評測體系“司南”相關(guān)負責人介紹,“當前大模型仍存在很大的局限性。組織AI大模型‘參加高考’ ...
IT之家7月18日消息,高考成績(jì)上海人工智能實(shí)驗室17日公布了針對7個(gè)AI大模型的模型高考全科目測試結果,據大模型開(kāi)源開(kāi)放評測體系“司南”相關(guān)負責人介紹,前名“當前大模型仍存在很大的文科局限性。組織AI大模型‘參加高考’,過(guò)本目的高考成績(jì)是評測當前大模型的真實(shí)水平,找準問(wèn)題,模型持續推進(jìn)技術(shù)進(jìn)步。前名”
測試結果顯示,文科書(shū)生?浦語(yǔ)2.0系列文曲星大模型(浦語(yǔ)文曲星)、過(guò)本阿里通義千問(wèn)大模型Qwen2-72B以及GPT-4o再次包攬文、高考成績(jì)理科前三甲;前三名AI“考生”的模型文、理科成績(jì)分別超過(guò)了“一本”“二本”線(xiàn)(以今年高考人數最多的前名河南省的分數線(xiàn)為參考)。
從官方提供的文科圖片來(lái)看,此次參與“高考”的過(guò)本大模型還包括來(lái)自零一萬(wàn)物的 Yi-1.5-34B、來(lái)自通義千問(wèn)的 Qwen2-57B、來(lái)自智譜的GLM-4-9B 和法國 AI 初創(chuàng )公司Mistral旗下的Mixtral 8×22B。
據介紹,此次評測具備如下特征:
全卷考試:進(jìn)行全卷評分,而不只針對單一題型,且包括帶圖的高考題
考前開(kāi)源:評測覆蓋的開(kāi)源模型均為今年高考前開(kāi)源的模型,排除泄題的可能性
老師打分:邀請有高考閱卷經(jīng)驗的老師打分,確保評分和高考盡量一致
完全公開(kāi):生成答案的代碼、模型答卷、評分結果完全開(kāi)源
在增加綜合科目的基礎上,Qwen2-72B、GPT-4o、浦語(yǔ)文曲星包攬文、理科前三甲。阿里通義千問(wèn)大模型Qwen2-72B以546分的成績(jì)榮獲AI高考“文科狀元”,浦語(yǔ)文曲星則以 468.5分成為理科第一名,分別超過(guò)了“非開(kāi)源國際插班生”GPT-4o(文科531分,理科467分)。同為國外機構發(fā)布的Mixtral8x22B平均得分最少,弱于國內大模型的高考表現。
閱卷老師們一致認為,大模型與真人考生仍存在差距,雖然對于基礎知識的掌握表現出色,但在邏輯推理和知識靈活應用方面,大模型仍然差強人意。具體而言,在作答主觀(guān)題時(shí),大模型往往無(wú)法完整理解題干,不明白代詞指向,結果導致答非所問(wèn);解答數學(xué)題時(shí),解題過(guò)程機械且邏輯性差,對于幾何題,常出現與空間邏輯相違背的推斷;對物理、化學(xué)實(shí)驗理解膚淺,無(wú)法準確識別并運用實(shí)驗器材。
此外,大模型也會(huì )偽造虛構內容,編造看似合理但實(shí)際不存在的詩(shī)句,或在存在明顯計算錯誤的情況下之后不反思,“硬著(zhù)頭皮蒙”一個(gè)答案,均給閱卷老師帶來(lái)了困擾。
根據上海人工智能實(shí)驗室上個(gè)月公布的AI高考全卷結果,Qwen2-72B、GPT-4o及書(shū)生?浦語(yǔ)2.0文曲星(InternLM2-20B-WQX)成為本次大模型高考的前三甲,得分率均超過(guò)70%。大部分模型“考生”語(yǔ)文、英語(yǔ)科目表現良好,但數學(xué)方面仍有很大提升空間。
Tags:
相關(guān)文章
萬(wàn)代南夢(mèng)宮前社長(cháng)石川祝男去世 曾參與制作童年記憶打鱷魚(yú)街機
新聞中心萬(wàn)代南夢(mèng)宮前社長(cháng)石川祝男去世,享年69 歲。萬(wàn)代南夢(mèng)宮在一份聲明中表示,公司選擇在9 月 9 日舉行葬禮之前不發(fā)布他去世的消息。公司寫(xiě)道:“我們遺憾的通知各位,萬(wàn)代南夢(mèng)宮控股公司前社長(cháng)石川祝男于202 ...
【新聞中心】
閱讀更多中國產(chǎn)業(yè)新優(yōu)勢,靠的是真本事(望海樓·看清“中國產(chǎn)能過(guò)剩論”背后的真企圖③)
新聞中心【理響中國】請接收這一份新時(shí)代思政課建設的實(shí)踐指南2024年05月13日 16:22:39 美式雙標再現!指責中國“產(chǎn)能過(guò)?!闭静蛔∧_2024年05月13日 15:38: ...
【新聞中心】
閱讀更多女性心血管病高發(fā) 竟有這些“特殊原因”
新聞中心為何涼茶加藥現象屢見(jiàn)不鮮?2024年05月13日 14:52:07 異地就醫免備案,報銷(xiāo)比例不降低2024年05月13日 07:46:36 ...
【新聞中心】
閱讀更多
熱門(mén)文章
最新文章
友情鏈接
- 開(kāi)發(fā)《黑神話(huà):悟空》對游戲科學(xué)來(lái)說(shuō)是一個(gè)真正的挑戰
- 500多名《魔獸世界》開(kāi)發(fā)者組建工會(huì ) 與高層談判
- 兩位長(cháng)腿美女太吸睛!索尼香港宣傳《宇宙機器人》
- 《華納大亂斗》第二賽季:武士杰克和陰間大法師加入
- 大快人心!編造《刺客信條:影》黑人武士彌助故事的教授被開(kāi)除
- 國際奧委會(huì )全票通過(guò)沙特電競奧運會(huì )項目 預計2025年開(kāi)辦
- 動(dòng)視暴雪也被曝開(kāi)發(fā)過(guò)程使用生成式AI 引前員工擔憂(yōu)
- PS5新測試系統更新發(fā)布 為手柄添加自適應充電功能
- 波音飛船故障還沒(méi)修好!兩宇航員滯留太空超一個(gè)月:返回日期仍未知
- 《渡神紀 芬尼斯崛起》國行版即將推出 9月12日發(fā)售