中新網(wǎng)北京5月21日電(中新財(cái)經(jīng)記者 宋宇晟)記者了解到,,近日,在北京市海淀區(qū)教委支持下,,智源研究院聯(lián)合與海淀區(qū)教師進(jìn)修學(xué)校對齊學(xué)生測驗(yàn)方式,,考察大模型與人類學(xué)生的學(xué)科水平差異,其中,,答案不唯一的主觀題,,由海淀教師親自評卷。評測發(fā)現(xiàn),,模型在綜合學(xué)科能力上與海淀學(xué)生平均水平仍有差距,,普遍存在文強(qiáng)理弱的情況,并且對圖表的理解能力不足,,大模型未來有很大的提升空間,。北京市海淀區(qū)教師進(jìn)修學(xué)校校長姚守梅解讀大模型K12學(xué)科測試結(jié)果時(shí)指出,,在語文、歷史等人文學(xué)科的考試中,,模型欠缺對文字背后的文化內(nèi)涵以及家國情懷的理解,。面對歷史地理綜合題時(shí),模型并不能像人類考生一樣有效識別學(xué)科屬性,。相較于簡單的英語題,,模型反而更擅長復(fù)雜的英語題。解理科題目時(shí),,模型會(huì)出現(xiàn)以超出年級知識范圍外的方法解題的情況,。當(dāng)出現(xiàn)無法理解的考題時(shí),模型依然存在明顯的“幻覺”,。此外,,智源研究院還發(fā)布并解讀國內(nèi)外140余個(gè)開源和商業(yè)閉源的語言及多模態(tài)大模型全方位能力評測結(jié)果。評測結(jié)果顯示,,在中文語境下,,國內(nèi)頭部語言模型的綜合表現(xiàn)已接近國際一流水平,但存在能力發(fā)展不均衡的情況,。在多模態(tài)理解圖文問答任務(wù)上,,開閉源模型平分秋色,國產(chǎn)模型表現(xiàn)突出,。國產(chǎn)多模態(tài)模型在中文語境下的文生圖能力與國際一流水平差距較小,。多模態(tài)模型的文生視頻能力上,對比各家公布的演示視頻長度和質(zhì)量,,Sora有明顯優(yōu)勢,,其他開放評測的文生視頻模型中,國產(chǎn)模型PixVerse表現(xiàn)優(yōu)異,。據(jù)介紹,,本次用于評測的評測體系依托科技部“人工智能基礎(chǔ)模型支撐平臺與評測技術(shù)”和工信部“大模型公共服務(wù)平臺”項(xiàng)目,智源研究院與10余家高校和機(jī)構(gòu)聯(lián)合開展大模型評測方法與工具研發(fā),。評測使用20余個(gè)數(shù)據(jù)集,、超8萬道考題,包括與合作單位共建和智源自建的多個(gè)評測數(shù)據(jù)集,,如中文多模態(tài)多題型理解及推理評測數(shù)據(jù)集CMMU,、中文語義評測數(shù)據(jù)集C-SEM、中文語言及認(rèn)知主觀評測集CLCC,、面向復(fù)雜算法代碼生成任務(wù)的評測集TACO,、文生圖主觀評測集Image-gen、多語言文生圖質(zhì)量評測數(shù)據(jù)集MG18,、文生視頻模型主觀評測集 CUC T2V prompts,。其中,,主觀題4000余道,均來源于自建原創(chuàng)未公開并保持高頻迭代的主觀評測集,,嚴(yán)格校準(zhǔn)打分標(biāo)準(zhǔn),,采取多人獨(dú)立匿名評分、嚴(yán)格質(zhì)檢與抽檢相結(jié)合的管理機(jī)制,,降低主觀偏差的影響,。此外,為了更準(zhǔn)確地評測語言模型的各項(xiàng)能力,,智源專門對所有客觀數(shù)據(jù)集的子數(shù)據(jù)集進(jìn)行了能力標(biāo)簽映射,。(完)
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1103633.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。