新京報(bào)貝殼財(cái)經(jīng)訊(記者陳維城)6月14日,,2024北京智源大會(huì)開(kāi)幕,,大會(huì)現(xiàn)場(chǎng)發(fā)布了“北京人工智能數(shù)據(jù)運(yùn)營(yíng)平臺(tái)”(包括平臺(tái)上線、重磅數(shù)據(jù)集開(kāi)源和數(shù)據(jù)工具FlagData3.0),并啟動(dòng)了“行業(yè)數(shù)據(jù)集—場(chǎng)景應(yīng)用創(chuàng)新計(jì)劃”,為千行百業(yè)大模型落地構(gòu)筑重要的數(shù)據(jù)基礎(chǔ)。構(gòu)建平臺(tái)能力,,創(chuàng)新運(yùn)營(yíng)模式北京人工智能數(shù)據(jù)運(yùn)營(yíng)平臺(tái):支持三種數(shù)據(jù)使用模式本次論壇上,,智源研究院聯(lián)手京能數(shù)字產(chǎn)業(yè)有限公司(下簡(jiǎn)稱京能數(shù)產(chǎn))發(fā)布了北京人工智能數(shù)據(jù)運(yùn)營(yíng)平臺(tái)。北京人工智能數(shù)據(jù)運(yùn)營(yíng)平臺(tái)是在國(guó)家發(fā)展改革委,、國(guó)家數(shù)據(jù)局指導(dǎo)下,,北京市發(fā)展改革委主導(dǎo),市委網(wǎng)信辦,、市科委,、市經(jīng)信局、海淀區(qū)政府,、中國(guó)網(wǎng)絡(luò)空間安全協(xié)會(huì)人工智能安全治理專委會(huì)等單位支持推動(dòng),,由智源研究院牽頭與京能數(shù)產(chǎn)等單位共建。數(shù)據(jù)平臺(tái)實(shí)現(xiàn)數(shù)據(jù)的匯聚管理,、處理加工,,并提供多種模態(tài)的數(shù)據(jù)標(biāo)注支持,支持多種數(shù)據(jù)匯聚和使用形式,,不斷擴(kuò)充數(shù)據(jù)規(guī)模,,為大模型行業(yè)發(fā)展提供堅(jiān)實(shí)的數(shù)據(jù)支撐。目前,,數(shù)據(jù)運(yùn)營(yíng)平臺(tái)支持開(kāi)源開(kāi)放,、積分共享,、數(shù)算一體三種數(shù)據(jù)運(yùn)營(yíng)模式,。“開(kāi)源開(kāi)放”模式允許用戶在遵守使用協(xié)議的前提下自由下載使用,?!胺e分共享”模式面向數(shù)據(jù)工作組內(nèi)的成員,根據(jù)數(shù)據(jù)貢獻(xiàn)實(shí)行積分制,即成員單位貢獻(xiàn)數(shù)據(jù),,按照計(jì)分標(biāo)準(zhǔn)獲取相應(yīng)積分,,同時(shí)獲得共享數(shù)據(jù)的權(quán)益?!皵?shù)算一體”模式針對(duì)高價(jià)值數(shù)據(jù),,僅在平臺(tái)上進(jìn)行數(shù)據(jù)加工、訓(xùn)練使用,,保證數(shù)據(jù)不出安全域,。開(kāi)源超大規(guī)模高質(zhì)量數(shù)據(jù)集1、全球最大的多行業(yè)中英雙語(yǔ)數(shù)據(jù)集IndustryCorpus 1.0,,本次論壇上,,智源研究院發(fā)布全球最大的多行業(yè)中英雙語(yǔ)數(shù)據(jù)集IndustryCorpus 1.0 ,大幅度提升了全球開(kāi)源行業(yè)數(shù)據(jù)集的數(shù)據(jù)量,,為大模型的行業(yè)落地提供了強(qiáng)有力的保障,。同時(shí),智源選取醫(yī)療行業(yè)數(shù)據(jù)集,,完成了示范模型訓(xùn)練,,取得了優(yōu)異的模型行業(yè)能力提升,為行業(yè)模型訓(xùn)練提供高質(zhì)量范例和參考,。2,、啟動(dòng)千萬(wàn)級(jí)指令微調(diào)數(shù)據(jù)集 InfinityInstruct 的開(kāi)源項(xiàng)目高質(zhì)量的指令數(shù)據(jù)是大模型性能的“養(yǎng)料”。本次論壇上,,智源研究院發(fā)布的千萬(wàn)級(jí)高質(zhì)量指令微調(diào)數(shù)據(jù)集開(kāi)源項(xiàng)目,,包括基于開(kāi)源數(shù)據(jù)集進(jìn)行高質(zhì)量篩選的數(shù)據(jù)和通過(guò)數(shù)據(jù)合成方法構(gòu)造的高質(zhì)量指令數(shù)據(jù)。智源對(duì)現(xiàn)有開(kāi)源數(shù)據(jù)進(jìn)行領(lǐng)域分析確保合理類型分布,,對(duì)大規(guī)模數(shù)據(jù)進(jìn)行質(zhì)量篩選保留高價(jià)值數(shù)據(jù),,針對(duì)開(kāi)源數(shù)據(jù)缺乏的領(lǐng)域和任務(wù),進(jìn)行數(shù)據(jù)增廣,,并結(jié)合人工標(biāo)注對(duì)數(shù)據(jù)質(zhì)量進(jìn)行控制,,避免合成數(shù)據(jù)分布偏差。3,、構(gòu)建通用數(shù)據(jù)集和行業(yè)數(shù)據(jù)集兩大專區(qū),,滿足用戶不同需求 今年以來(lái),智源匯聚了海量可直接用于算法訓(xùn)練的通用數(shù)據(jù)集和行業(yè)數(shù)據(jù)集,。本次論壇上,,智源發(fā)布通用數(shù)據(jù)集和行業(yè)數(shù)據(jù)集兩大專區(qū)。通用數(shù)據(jù)集為用于通用基礎(chǔ)模型訓(xùn)練的多種模態(tài)數(shù)據(jù),。當(dāng)前已經(jīng)匯聚在數(shù)據(jù)運(yùn)營(yíng)平臺(tái)的通用數(shù)據(jù)集有116個(gè),,總數(shù)據(jù)量700.27TB,,其中文本數(shù)據(jù)9.76TB,多模態(tài)圖文數(shù)據(jù)量75.31TB,,視頻數(shù)據(jù)量615TB,,音頻數(shù)據(jù)0.2TB。行業(yè)數(shù)據(jù)集包含了行業(yè)領(lǐng)域特有的知識(shí)和信息,,用于訓(xùn)練各種行業(yè)模型,,推動(dòng)人工智能從通用向?qū)I(yè)化、精細(xì)化持續(xù)發(fā)展,。目前行業(yè)專區(qū)數(shù)據(jù)集28個(gè),,數(shù)據(jù)量4.33TB,其中文本數(shù)據(jù)集22個(gè),,數(shù)據(jù)量4.3TB,,多模態(tài)圖文行業(yè)數(shù)據(jù)集6個(gè),數(shù)據(jù)量0.03TB,。4,、全面升級(jí)數(shù)據(jù)處理工具FlagData3.0,助力數(shù)據(jù)高質(zhì)量發(fā)展數(shù)據(jù)質(zhì)量直接決定了大模型的輸出能力,,使用數(shù)據(jù)處理工具不斷提升數(shù)據(jù)質(zhì)量變得日益重要,。智源研究院長(zhǎng)期投入數(shù)據(jù)建設(shè)工作,開(kāi)發(fā)了一批數(shù)據(jù)處理的高效工具,。FlagData數(shù)據(jù)工具·開(kāi)源項(xiàng)目包含清洗,、標(biāo)注、壓縮,、統(tǒng)計(jì)分析等功能在內(nèi)的多個(gè)數(shù)據(jù)處理工具與算法,,為提升數(shù)據(jù)質(zhì)量帶來(lái)直接的便利。本次論壇上,,F(xiàn)lagaData2.0全面升級(jí)為FlagData 3.0,,一方面提供了傻瓜式語(yǔ)言數(shù)據(jù)處理工具,支持一鍵式搭建數(shù)據(jù)處理工作流,。另一方面,,為專業(yè)的進(jìn)階用戶提供數(shù)十種數(shù)據(jù)加工算子,支持自定義數(shù)據(jù)處理流程,。編輯 岳彩周校對(duì) 盧茜
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1107577.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。