近日,上海人工智能實(shí)驗(yàn)室宣布聯(lián)合語(yǔ)料數(shù)據(jù)聯(lián)盟成員單位,,共同開源發(fā)布“書生·萬(wàn)卷”1.0多模態(tài)預(yù)訓(xùn)練語(yǔ)料,。
“書生·萬(wàn)卷”1.0集合了語(yǔ)料數(shù)據(jù)聯(lián)盟成員豐富的內(nèi)容積累與上海人工智能實(shí)驗(yàn)室的數(shù)據(jù)處理能力等優(yōu)勢(shì),,將為學(xué)術(shù)界及產(chǎn)業(yè)界提供高質(zhì)量大模型多模態(tài)預(yù)訓(xùn)練語(yǔ)料,。本次開源的數(shù)據(jù)總量超過(guò)2TB,,具備多元融合,、精細(xì)處理、價(jià)值對(duì)齊,、易用高效等四大特征,。
本次開源的“書生·萬(wàn)卷”1.0包含文本、圖文,、視頻三部分?jǐn)?shù)據(jù)集,。其中文本數(shù)據(jù)來(lái)自網(wǎng)頁(yè)、百科,、書籍,、專利、教材,、考題等,,數(shù)據(jù)總量超過(guò)5億個(gè)文檔,數(shù)據(jù)大小超過(guò)1TB,,覆蓋科技,、文學(xué)、媒體,、教育,、法律等多個(gè)領(lǐng)域;圖文數(shù)據(jù)主要來(lái)自公開網(wǎng)頁(yè),,經(jīng)處理后形成圖文交錯(cuò)文檔,,總量超過(guò)2200萬(wàn)個(gè),數(shù)據(jù)大小超過(guò)140GB(不含圖片),,覆蓋新聞事件,、人物,、自然景觀、社會(huì)生活等多個(gè)領(lǐng)域,;視頻數(shù)據(jù)主要來(lái)自中央廣播電視總臺(tái)和上海文廣集團(tuán),,包含新聞、影視等多種類型的節(jié)目影像,,總計(jì)視頻文件數(shù)超過(guò)1000個(gè),,數(shù)據(jù)大小超過(guò)900GB,內(nèi)容覆蓋軍事,、文藝,、體育、自然,、知識(shí),、影像藝術(shù)等方面。(記者 沈文敏)
來(lái)源:人民日?qǐng)?bào)
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1066746.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。