近日,,上海人工智能實(shí)驗(yàn)室宣布聯(lián)合語(yǔ)料數(shù)據(jù)聯(lián)盟成員單位,共同開(kāi)源發(fā)布“書生·萬(wàn)卷”1.0多模態(tài)預(yù)訓(xùn)練語(yǔ)料,。
“書生·萬(wàn)卷”1.0集合了語(yǔ)料數(shù)據(jù)聯(lián)盟成員豐富的內(nèi)容積累與上海人工智能實(shí)驗(yàn)室的數(shù)據(jù)處理能力等優(yōu)勢(shì),,將為學(xué)術(shù)界及產(chǎn)業(yè)界提供高質(zhì)量大模型多模態(tài)預(yù)訓(xùn)練語(yǔ)料,。本次開(kāi)源的數(shù)據(jù)總量超過(guò)2TB,具備多元融合,、精細(xì)處理,、價(jià)值對(duì)齊、易用高效等四大特征,。
本次開(kāi)源的“書生·萬(wàn)卷”1.0包含文本,、圖文、視頻三部分?jǐn)?shù)據(jù)集,。其中文本數(shù)據(jù)來(lái)自網(wǎng)頁(yè),、百科、書籍,、專利,、教材、考題等,,數(shù)據(jù)總量超過(guò)5億個(gè)文檔,,數(shù)據(jù)大小超過(guò)1TB,覆蓋科技、文學(xué),、媒體,、教育、法律等多個(gè)領(lǐng)域,;圖文數(shù)據(jù)主要來(lái)自公開(kāi)網(wǎng)頁(yè),,經(jīng)處理后形成圖文交錯(cuò)文檔,總量超過(guò)2200萬(wàn)個(gè),,數(shù)據(jù)大小超過(guò)140GB(不含圖片),,覆蓋新聞事件、人物,、自然景觀,、社會(huì)生活等多個(gè)領(lǐng)域;視頻數(shù)據(jù)主要來(lái)自中央廣播電視總臺(tái)和上海文廣集團(tuán),,包含新聞,、影視等多種類型的節(jié)目影像,總計(jì)視頻文件數(shù)超過(guò)1000個(gè),,數(shù)據(jù)大小超過(guò)900GB,,內(nèi)容覆蓋軍事、文藝,、體育,、自然、知識(shí),、影像藝術(shù)等方面,。(記者 沈文敏)
來(lái)源:人民日?qǐng)?bào)
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1066746.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。