來(lái)源:新浪財(cái)經(jīng)
AI大模型基于海量多模態(tài)數(shù)據(jù),,通過(guò)深度學(xué)習(xí),、強(qiáng)化訓(xùn)練,、精調(diào)微調(diào),,可以給用戶帶來(lái)全新的智能體驗(yàn),。數(shù)據(jù)是支撐AI大模型進(jìn)化的核心要素,,數(shù)據(jù)質(zhì)量的高低對(duì)于大模型的訓(xùn)練效果有重要影響,。其中,,訓(xùn)練語(yǔ)料的多樣性和代表性,將對(duì)人類(lèi)社會(huì)的語(yǔ)言和文化多樣性產(chǎn)生深遠(yuǎn)的影響,。當(dāng)前,,英文數(shù)據(jù)在大模型訓(xùn)練語(yǔ)料中占據(jù)著顯著的規(guī)模優(yōu)勢(shì),引發(fā)關(guān)于“英語(yǔ)中心主義”及其社會(huì)和文化影響的擔(dān)憂,這給人工智能發(fā)展提出重要問(wèn)題:如何確保技術(shù)進(jìn)步公平地惠及所有文化和語(yǔ)言,?
一,、數(shù)據(jù)是AI大模型發(fā)展的基礎(chǔ)要素資源
隨著數(shù)據(jù)處理技術(shù)的進(jìn)步和數(shù)據(jù)服務(wù)產(chǎn)業(yè)的發(fā)展,全球可用的大模型數(shù)據(jù)集數(shù)量,、質(zhì)量和種類(lèi)都將得到提升和完善,。人工智能產(chǎn)業(yè)的發(fā)展程度,,與訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量密不可分,開(kāi)展科學(xué)有效的數(shù)據(jù)治理,,將為人工智能大模型產(chǎn)業(yè)高質(zhì)量發(fā)展提供重要保障,。
1、公開(kāi)數(shù)據(jù)是AI大模型訓(xùn)練主要來(lái)源
AI大模型訓(xùn)練公開(kāi)渠道獲取的數(shù)據(jù)主要來(lái)自維基百科(Wikipedia),、書(shū)籍(Books),、期刊(Journals)、Reddit社交新聞?wù)军c(diǎn),、Common Crawl和其他數(shù)據(jù)集,。同時(shí),包括由政府組織,、科研學(xué)術(shù)機(jī)構(gòu)或企業(yè),,公開(kāi)發(fā)布的圖像、文本,、音頻,、視頻等各種類(lèi)型的數(shù)據(jù)。與此同時(shí),,互聯(lián)網(wǎng)本身承載大量信息和數(shù)據(jù),,互聯(lián)網(wǎng)公開(kāi)的數(shù)據(jù)資源包括UGC平臺(tái),、社交網(wǎng)絡(luò)媒體、論壇博客資料,、新聞網(wǎng)站信息等,,以及用戶發(fā)表的內(nèi)容、回復(fù),、評(píng)論等內(nèi)容,都可以成為大模型訓(xùn)練的數(shù)據(jù)源,。
2,、私域數(shù)據(jù)對(duì)大模型訓(xùn)練具有更高價(jià)值
用于大模型訓(xùn)練的私域數(shù)據(jù),包括企業(yè)依據(jù)自身業(yè)務(wù)歷史積累的數(shù)據(jù),,即根據(jù)業(yè)務(wù)特性和場(chǎng)景積累,,自身可以利用的一系列數(shù)據(jù)?;蛘咭恍C(jī)構(gòu),、學(xué)者擁有較為獨(dú)特的數(shù)據(jù)資源,并愿意以各種形式合作共享,,支持不同領(lǐng)域的研究和應(yīng)用,,尤其是針對(duì)能夠共同提高人類(lèi)福祉的領(lǐng)域。例如,,在醫(yī)療領(lǐng)域,,醫(yī)療機(jī)構(gòu)通常會(huì)收集大量的醫(yī)療影像數(shù)據(jù),這些數(shù)據(jù)可以用于訓(xùn)練圖像分析,,或者特定疾病檢測(cè)等任務(wù),。然而,這些數(shù)據(jù)的私域化或版權(quán)化保護(hù),,會(huì)導(dǎo)致原本具有高價(jià)值的數(shù)據(jù)集存在流通性和利用率不足的問(wèn)題,。
3、數(shù)據(jù)規(guī)模質(zhì)量決定大模型訓(xùn)練效果
AI大模型訓(xùn)練需要基于大量的文本,、圖像,、語(yǔ)音、視頻等結(jié)構(gòu)化和非結(jié)構(gòu)化的多模態(tài)數(shù)據(jù)集,。近年來(lái),,基于移動(dòng)互聯(lián)網(wǎng)時(shí)代積累的海量用戶、應(yīng)用和數(shù)據(jù),,全球范圍內(nèi)數(shù)據(jù)集規(guī)模呈現(xiàn)出爆發(fā)增長(zhǎng)的態(tài)勢(shì),,疊加更加強(qiáng)大的算力芯片數(shù)據(jù)處理能力,從而能夠?qū)崿F(xiàn)AI模型訓(xùn)練成果的提升,。例如,,GPT-3的訓(xùn)練數(shù)據(jù)集規(guī)模達(dá)到753GB,,而ChatGPT的多模態(tài)數(shù)據(jù)集則達(dá)到45TB,這相當(dāng)于超萬(wàn)億單詞的人類(lèi)語(yǔ)言數(shù)據(jù)集,。因此,,數(shù)據(jù)供給的規(guī)模和質(zhì)量,決定大模型訓(xùn)練“大力出奇跡”效果的上限,。
4,、數(shù)據(jù)選擇將影響AI大模型的價(jià)值觀
由于AI大模型多采用半監(jiān)督或無(wú)監(jiān)督的學(xué)習(xí)模式進(jìn)行預(yù)訓(xùn)練,訓(xùn)練數(shù)據(jù)選擇對(duì)模型訓(xùn)練的結(jié)果具有重要影響,,如果訓(xùn)練數(shù)據(jù)在選擇時(shí)出現(xiàn)偏差,,大量未標(biāo)注的數(shù)據(jù)參與模型訓(xùn)練,這將導(dǎo)致AI大模型延續(xù)原始數(shù)據(jù)中存在的價(jià)值觀念,。因此,,不同國(guó)家、不同區(qū)域的生成式人工智能大模型,,由于數(shù)據(jù)選擇的差異,,訓(xùn)練結(jié)果可能攜帶區(qū)域文化和價(jià)值觀的固有偏見(jiàn),甚至產(chǎn)生性別歧視,、種族仇恨,、惡意言論、排斥性規(guī)范等現(xiàn)象,,這就需要重視模型的價(jià)值觀對(duì)齊問(wèn)題,。數(shù)據(jù)選擇不僅影響模型的語(yǔ)言理解能力,還可能塑造模型的決策過(guò)程和輸出結(jié)果的公正和客觀,。
二,、AI大模型訓(xùn)練呈現(xiàn)“英語(yǔ)中心主義”特征
“英語(yǔ)中心主義”指的是英語(yǔ)文化、歷史和價(jià)值觀在全球文化,、意識(shí)形態(tài)領(lǐng)域非對(duì)稱的影響力,,其他非英語(yǔ)國(guó)家的民眾,往往需要接受英語(yǔ)和相關(guān)文化教育才能融入國(guó)際社會(huì),。這一現(xiàn)象在AI大模型訓(xùn)練推理過(guò)程中得到凸顯,,或?qū)?dǎo)致一些語(yǔ)言和文化在人工智能時(shí)代被日益邊緣化。
1,、英文數(shù)據(jù)集具有明顯的優(yōu)勢(shì)地位
在人工智能訓(xùn)練領(lǐng)域,,英語(yǔ)的優(yōu)勢(shì)地位非常明顯,當(dāng)前最知名的生成式人工智能AI大模型,,約90%的訓(xùn)練數(shù)據(jù)由英文文本構(gòu)成,,這主要是由全球互聯(lián)網(wǎng)的語(yǔ)言現(xiàn)狀所導(dǎo)致。并且AI大模型使用不同語(yǔ)言的訓(xùn)練成本,,與該語(yǔ)言構(gòu)筑的互聯(lián)網(wǎng)生態(tài)繁榮程度,,具有明顯的相關(guān)性,,語(yǔ)料數(shù)據(jù)越多訓(xùn)練成本越低。英語(yǔ)是目前訓(xùn)練大模型最便宜的語(yǔ)言,,相應(yīng)的獲取荷蘭語(yǔ),、越南語(yǔ)等小語(yǔ)種的數(shù)據(jù)信息成本要大許多,這種“馬太效應(yīng)”或?qū)⑹沟糜⑽牡匚怀掷m(xù)增強(qiáng),。
2,、中文數(shù)據(jù)資源處于相對(duì)缺少狀態(tài)
當(dāng)前,中文數(shù)據(jù)資源的積累和開(kāi)源生態(tài)建設(shè)面臨一些難題,。優(yōu)質(zhì)的開(kāi)源中文數(shù)據(jù)集相對(duì)較少,,這在一定程度上限制了中文大模型的訓(xùn)練和優(yōu)化。企業(yè)擔(dān)心數(shù)據(jù)對(duì)外泄露可能影響商業(yè)利益和客戶信任,,因此在數(shù)據(jù)共享方面持謹(jǐn)慎態(tài)度。大模型廠商則擔(dān)心模型資產(chǎn)安全,,害怕技術(shù)泄露或被惡意利用,,這影響了他們參與開(kāi)源社區(qū)的積極性。公眾用戶對(duì)個(gè)人數(shù)據(jù)和隱私風(fēng)險(xiǎn)的擔(dān)憂也日益增加,,對(duì)數(shù)據(jù)收集和使用持保留態(tài)度,。這些因素共同作用,直接影響和制約了中文大模型的競(jìng)爭(zhēng)潛力,。
3,、“英文敘事”主導(dǎo)大模型推理邏輯
人工智能大模型正與我們的日常生活日益緊密地結(jié)合在一起,引發(fā)一個(gè)既令人好奇又令人擔(dān)憂的問(wèn)題:為什么聊天機(jī)器人的大腦——AI大模型即使在用其他語(yǔ)言進(jìn)行交互時(shí),,也用英語(yǔ)思考,?通過(guò)跟蹤模型處理每條指令的過(guò)程可以發(fā)現(xiàn),雖然各層級(jí)的處理路徑非常復(fù)雜,,但多是通過(guò)英語(yǔ)作為幫助理解概念的橋梁,。大量英文語(yǔ)料的使用使得模型在進(jìn)行推理時(shí)往往傾向于使用英語(yǔ)的語(yǔ)法結(jié)構(gòu)和表達(dá)方式。比如,,英語(yǔ)中常見(jiàn)的因果關(guān)系表達(dá)(如“because,,” “therefore,” “as a result”)在模型生成的推理過(guò)程中經(jīng)常出現(xiàn),。此外,,隨著自然語(yǔ)言處理技術(shù)的發(fā)展,越來(lái)越多的大模型開(kāi)始支持直接處理多種語(yǔ)言,,減少了對(duì)橋梁語(yǔ)言的依賴,。
三、英語(yǔ)主導(dǎo)AI大模型訓(xùn)練將擴(kuò)大“數(shù)據(jù)鴻溝”
隨著生成式人工智能(AI)的快速發(fā)展,,不少人開(kāi)始擔(dān)憂“英語(yǔ)中心主義”將對(duì)這一技術(shù)帶來(lái)何種影響,。有觀點(diǎn)認(rèn)為,,“英語(yǔ)中心主義”在生成式AI中將廣泛存在,可能會(huì)強(qiáng)化西方尤其是美國(guó)在該技術(shù)體系中的壟斷地位,,甚至形成某種難以逆轉(zhuǎn)的“馬太效應(yīng)”,。
1、輸出以英文為中心價(jià)值觀
盡管部分開(kāi)源大模型已經(jīng)證明,,能用多種語(yǔ)言處理和回答問(wèn)題,,但在美國(guó)最主流的幾款A(yù)I大模型中,使用英語(yǔ)的表現(xiàn)通常優(yōu)于其他語(yǔ)言,,特別是在目標(biāo)識(shí)別,、問(wèn)題回答等需要復(fù)雜推理的高級(jí)任務(wù)方面。這主要是由于訓(xùn)練這些模型的高質(zhì)量英語(yǔ)數(shù)據(jù),,比其他大多數(shù)語(yǔ)言都要多,,這就很可能在無(wú)意中偏向以英語(yǔ)為中心的文化價(jià)值觀,并將有限的世界觀價(jià)值觀,,疊加到不同的語(yǔ)言和文化地區(qū),。
2、導(dǎo)致算法歧視和偏見(jiàn)問(wèn)題
由于多數(shù)人工智能訓(xùn)練數(shù)據(jù)集是基于英語(yǔ)構(gòu)建,,非英語(yǔ)語(yǔ)言和文化的代表性不足,,并且多數(shù)人工智能大模型使用的語(yǔ)音識(shí)別、語(yǔ)言翻譯,、情感分析等自然語(yǔ)言處理技術(shù),,都是針對(duì)英語(yǔ)優(yōu)化,這導(dǎo)致人工智能算法優(yōu)化過(guò)程中也存在廣泛的語(yǔ)言偏見(jiàn),。這不僅會(huì)影響用其他語(yǔ)言給出解答方案的準(zhǔn)確性,,還可能導(dǎo)致在危急情況下產(chǎn)生不相關(guān)甚至具有危險(xiǎn)性的結(jié)果。因此,,得益于將英語(yǔ)作為樞軸語(yǔ)言,,AI大模型可在多語(yǔ)言任務(wù)中提供很強(qiáng)的性能,但出現(xiàn)偏差的可能性也非常大,。
3,、提高AI研究和應(yīng)用門(mén)檻
“英語(yǔ)中心主義”削弱AI多樣性,或?qū)ι墒紸I未來(lái)發(fā)展帶來(lái)負(fù)面影響,。英語(yǔ)的優(yōu)勢(shì)地位影響全球人工智能研究,、資源和人才的分布,這可能導(dǎo)致使用英文數(shù)據(jù)集訓(xùn)練出來(lái)的AI大模型,,在處理與非英語(yǔ)語(yǔ)言相關(guān)的任務(wù)時(shí)性能低下,。與此同時(shí),美英的科研機(jī)構(gòu)和大學(xué)更容易在這種環(huán)境中獲得資助和支持,,其他一些非英語(yǔ)國(guó)家推動(dòng)規(guī)?;芯?,將面臨資金和人才上的更大挑戰(zhàn)。這種態(tài)勢(shì)使得開(kāi)發(fā)英語(yǔ)人工智能大模型的成本低于其他語(yǔ)言,,一些小語(yǔ)種可能因?yàn)殚_(kāi)發(fā)成本過(guò)高而難以廣泛應(yīng)用,。
4、塑造不公正技術(shù)生態(tài)體系
英語(yǔ)在人工智能模型中的主導(dǎo)地位,,引發(fā)廣泛的有關(guān)多樣性和公平性的關(guān)鍵問(wèn)題,。人工智能特別是生成式AI技術(shù),在未來(lái)或?qū)l(fā)展成為一種應(yīng)用廣泛的嵌入式技術(shù),。這意味著英語(yǔ)優(yōu)勢(shì)的影響將不局限于人工智能領(lǐng)域,,而可能向更多領(lǐng)域擴(kuò)散,進(jìn)而塑造出一個(gè)對(duì)于英語(yǔ)更加友好有利的技術(shù)生態(tài)環(huán)境,。在這種新的技術(shù)生態(tài)中,,語(yǔ)言習(xí)慣、邏輯結(jié)構(gòu)與英語(yǔ)相差較大的非英語(yǔ)國(guó)家,,將面臨更為不利的發(fā)展環(huán)境,。
四、提升AI大模型數(shù)據(jù)多樣性的思考
AI大模型未來(lái)版本的開(kāi)發(fā),,必須具有更公平的語(yǔ)言覆蓋范圍,以反映和尊重人類(lèi)語(yǔ)言和文化的豐富多樣性,。同時(shí),,由于存在數(shù)據(jù)采集標(biāo)注成本高、數(shù)據(jù)質(zhì)量難以保障,、數(shù)據(jù)多樣化不足等問(wèn)題,,這就需要克服多重障礙,設(shè)計(jì)和采用一種不以英語(yǔ)為中心,,能夠兼顧多種語(yǔ)言的AI大模型產(chǎn)業(yè)發(fā)展機(jī)制,。
1、探索多語(yǔ)種合成數(shù)據(jù)集方案
當(dāng)AI大模型從通用走向?qū)I(yè)應(yīng)用,,從技術(shù)想象力走向產(chǎn)業(yè)的生產(chǎn)力,,必須要解決高質(zhì)量數(shù)據(jù)集稀缺與專(zhuān)業(yè)數(shù)據(jù)阻滯的挑戰(zhàn)。如果AI大模型的參數(shù)達(dá)到萬(wàn)億級(jí)別,,多語(yǔ)種合成數(shù)據(jù)將成為提供數(shù)據(jù)來(lái)源的可選方案,,某種程度緩解因客觀條件限制,或數(shù)據(jù)安全制度造成的數(shù)據(jù)樣本不足問(wèn)題,??傮w來(lái)看,多語(yǔ)種合成數(shù)據(jù)與原始數(shù)據(jù)相比,,可以發(fā)揮類(lèi)似的作用,,實(shí)現(xiàn)更加廉價(jià),、更為高效的大模型訓(xùn)練、測(cè)試和驗(yàn)證數(shù)據(jù)供給,。同時(shí),,一定程度緩解大模型對(duì)齊階段價(jià)值觀標(biāo)準(zhǔn)不統(tǒng)一、準(zhǔn)確性不足,、成本較高等問(wèn)題,。
2、支持多語(yǔ)種開(kāi)源數(shù)據(jù)集建設(shè)
在構(gòu)建多語(yǔ)種開(kāi)源數(shù)據(jù)集的過(guò)程中,,確實(shí)面臨著技術(shù)與經(jīng)濟(jì)上的多重挑戰(zhàn),。首先,需要收集和處理大量使用頻率較低的語(yǔ)言數(shù)據(jù),,這本身就是一個(gè)相當(dāng)大的挑戰(zhàn),。其次,為進(jìn)一步提升多語(yǔ)言大模型的訓(xùn)練效果,,研究者們采用了自我指導(dǎo)的多語(yǔ)言指令方法,,自動(dòng)生成了多樣的多語(yǔ)言指令數(shù)據(jù),以增強(qiáng)模型的指令遵循能力,。此外,,社區(qū)合作在多語(yǔ)種數(shù)據(jù)集建設(shè)中也起著至關(guān)重要的作用。由此,,非英語(yǔ)國(guó)家需要協(xié)同合作,,共同編纂涵蓋多種語(yǔ)言和方言的多樣化、有代表性的AI大模型訓(xùn)練開(kāi)源語(yǔ)料庫(kù),。
3,、開(kāi)展非英語(yǔ)國(guó)家的監(jiān)管合作
當(dāng)前,國(guó)際社會(huì)應(yīng)采取措施應(yīng)對(duì)“英語(yǔ)中心主義”帶來(lái)的偏見(jiàn)和數(shù)據(jù)鴻溝問(wèn)題,。全球大量用戶通過(guò)中文,、法文、德文,、俄文或西文向AI大模型提問(wèn),,這就需要共同提防和應(yīng)對(duì)“英語(yǔ)中心主義”帶來(lái)的長(zhǎng)期挑戰(zhàn),并且要求美英人工智能領(lǐng)軍企業(yè)采取有效措施減少算法和語(yǔ)言的偏見(jiàn)問(wèn)題,,并增加對(duì)非英語(yǔ)國(guó)家大模型開(kāi)發(fā)的技術(shù)支持,,促進(jìn)這些地區(qū)非英語(yǔ)生成式AI的發(fā)展,。國(guó)際社會(huì)也應(yīng)加強(qiáng)非英語(yǔ)國(guó)家間的監(jiān)督合作,,加強(qiáng)生成式AI領(lǐng)域的全球反壟斷監(jiān)管,。
4、發(fā)揮聯(lián)合國(guó)等國(guó)際組織作用
從數(shù)字產(chǎn)業(yè)發(fā)展歷史來(lái)看,實(shí)現(xiàn)全球文化價(jià)值觀的多元化,,是人工智能產(chǎn)業(yè)和生態(tài)獲取更高價(jià)值的重要影響因素,。AI大模型對(duì)英語(yǔ)的依賴反映現(xiàn)實(shí)世界中的模式,應(yīng)對(duì)這一趨勢(shì)意味著要正視和挑戰(zhàn)這些模式,,努力實(shí)現(xiàn)所有文化和語(yǔ)言的平等代表性,。因此,要積極支持聯(lián)合國(guó)等國(guó)際組織作用,,將應(yīng)對(duì)“英語(yǔ)中心主義”納入全球AI治理內(nèi)容,,在人工智能治理中強(qiáng)調(diào)多語(yǔ)言支持的必要性,在國(guó)際倡議中推動(dòng)人工智能技術(shù)的多文化支持,,從而減少應(yīng)用和研發(fā)中的語(yǔ)言障礙,。
作者:張 曉
中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心副主任,聯(lián)合國(guó)互聯(lián)網(wǎng)治理論壇(IGF)多利益相關(guān)方咨詢委委員,,中國(guó)IGF常務(wù)副主任
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1116862.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。