來源:新浪財(cái)經(jīng)
AI大模型基于海量多模態(tài)數(shù)據(jù),,通過深度學(xué)習(xí),、強(qiáng)化訓(xùn)練、精調(diào)微調(diào),可以給用戶帶來全新的智能體驗(yàn),。數(shù)據(jù)是支撐AI大模型進(jìn)化的核心要素,,數(shù)據(jù)質(zhì)量的高低對于大模型的訓(xùn)練效果有重要影響,。其中,,訓(xùn)練語料的多樣性和代表性,將對人類社會的語言和文化多樣性產(chǎn)生深遠(yuǎn)的影響,。當(dāng)前,,英文數(shù)據(jù)在大模型訓(xùn)練語料中占據(jù)著顯著的規(guī)模優(yōu)勢,引發(fā)關(guān)于“英語中心主義”及其社會和文化影響的擔(dān)憂,,這給人工智能發(fā)展提出重要問題:如何確保技術(shù)進(jìn)步公平地惠及所有文化和語言,?
一、數(shù)據(jù)是AI大模型發(fā)展的基礎(chǔ)要素資源
隨著數(shù)據(jù)處理技術(shù)的進(jìn)步和數(shù)據(jù)服務(wù)產(chǎn)業(yè)的發(fā)展,,全球可用的大模型數(shù)據(jù)集數(shù)量,、質(zhì)量和種類都將得到提升和完善。人工智能產(chǎn)業(yè)的發(fā)展程度,與訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量密不可分,,開展科學(xué)有效的數(shù)據(jù)治理,,將為人工智能大模型產(chǎn)業(yè)高質(zhì)量發(fā)展提供重要保障。
1,、公開數(shù)據(jù)是AI大模型訓(xùn)練主要來源
AI大模型訓(xùn)練公開渠道獲取的數(shù)據(jù)主要來自維基百科(Wikipedia),、書籍(Books)、期刊(Journals),、Reddit社交新聞?wù)军c(diǎn),、Common Crawl和其他數(shù)據(jù)集。同時,,包括由政府組織,、科研學(xué)術(shù)機(jī)構(gòu)或企業(yè),公開發(fā)布的圖像,、文本,、音頻、視頻等各種類型的數(shù)據(jù),。與此同時,,互聯(lián)網(wǎng)本身承載大量信息和數(shù)據(jù),互聯(lián)網(wǎng)公開的數(shù)據(jù)資源包括UGC平臺,、社交網(wǎng)絡(luò)媒體,、論壇博客資料、新聞網(wǎng)站信息等,,以及用戶發(fā)表的內(nèi)容,、回復(fù)、評論等內(nèi)容,,都可以成為大模型訓(xùn)練的數(shù)據(jù)源,。
2、私域數(shù)據(jù)對大模型訓(xùn)練具有更高價(jià)值
用于大模型訓(xùn)練的私域數(shù)據(jù),,包括企業(yè)依據(jù)自身業(yè)務(wù)歷史積累的數(shù)據(jù),,即根據(jù)業(yè)務(wù)特性和場景積累,自身可以利用的一系列數(shù)據(jù),?;蛘咭恍C(jī)構(gòu)、學(xué)者擁有較為獨(dú)特的數(shù)據(jù)資源,,并愿意以各種形式合作共享,,支持不同領(lǐng)域的研究和應(yīng)用,尤其是針對能夠共同提高人類福祉的領(lǐng)域,。例如,,在醫(yī)療領(lǐng)域,,醫(yī)療機(jī)構(gòu)通常會收集大量的醫(yī)療影像數(shù)據(jù),這些數(shù)據(jù)可以用于訓(xùn)練圖像分析,,或者特定疾病檢測等任務(wù),。然而,這些數(shù)據(jù)的私域化或版權(quán)化保護(hù),,會導(dǎo)致原本具有高價(jià)值的數(shù)據(jù)集存在流通性和利用率不足的問題,。
3、數(shù)據(jù)規(guī)模質(zhì)量決定大模型訓(xùn)練效果
AI大模型訓(xùn)練需要基于大量的文本,、圖像,、語音、視頻等結(jié)構(gòu)化和非結(jié)構(gòu)化的多模態(tài)數(shù)據(jù)集,。近年來,,基于移動互聯(lián)網(wǎng)時代積累的海量用戶、應(yīng)用和數(shù)據(jù),,全球范圍內(nèi)數(shù)據(jù)集規(guī)模呈現(xiàn)出爆發(fā)增長的態(tài)勢,,疊加更加強(qiáng)大的算力芯片數(shù)據(jù)處理能力,從而能夠?qū)崿F(xiàn)AI模型訓(xùn)練成果的提升,。例如,,GPT-3的訓(xùn)練數(shù)據(jù)集規(guī)模達(dá)到753GB,而ChatGPT的多模態(tài)數(shù)據(jù)集則達(dá)到45TB,,這相當(dāng)于超萬億單詞的人類語言數(shù)據(jù)集,。因此,數(shù)據(jù)供給的規(guī)模和質(zhì)量,,決定大模型訓(xùn)練“大力出奇跡”效果的上限,。
4、數(shù)據(jù)選擇將影響AI大模型的價(jià)值觀
由于AI大模型多采用半監(jiān)督或無監(jiān)督的學(xué)習(xí)模式進(jìn)行預(yù)訓(xùn)練,,訓(xùn)練數(shù)據(jù)選擇對模型訓(xùn)練的結(jié)果具有重要影響,,如果訓(xùn)練數(shù)據(jù)在選擇時出現(xiàn)偏差,大量未標(biāo)注的數(shù)據(jù)參與模型訓(xùn)練,,這將導(dǎo)致AI大模型延續(xù)原始數(shù)據(jù)中存在的價(jià)值觀念,。因此,不同國家,、不同區(qū)域的生成式人工智能大模型,,由于數(shù)據(jù)選擇的差異,訓(xùn)練結(jié)果可能攜帶區(qū)域文化和價(jià)值觀的固有偏見,,甚至產(chǎn)生性別歧視,、種族仇恨、惡意言論,、排斥性規(guī)范等現(xiàn)象,,這就需要重視模型的價(jià)值觀對齊問題,。數(shù)據(jù)選擇不僅影響模型的語言理解能力,還可能塑造模型的決策過程和輸出結(jié)果的公正和客觀,。
二、AI大模型訓(xùn)練呈現(xiàn)“英語中心主義”特征
“英語中心主義”指的是英語文化,、歷史和價(jià)值觀在全球文化,、意識形態(tài)領(lǐng)域非對稱的影響力,其他非英語國家的民眾,,往往需要接受英語和相關(guān)文化教育才能融入國際社會,。這一現(xiàn)象在AI大模型訓(xùn)練推理過程中得到凸顯,或?qū)?dǎo)致一些語言和文化在人工智能時代被日益邊緣化,。
1,、英文數(shù)據(jù)集具有明顯的優(yōu)勢地位
在人工智能訓(xùn)練領(lǐng)域,英語的優(yōu)勢地位非常明顯,,當(dāng)前最知名的生成式人工智能AI大模型,,約90%的訓(xùn)練數(shù)據(jù)由英文文本構(gòu)成,這主要是由全球互聯(lián)網(wǎng)的語言現(xiàn)狀所導(dǎo)致,。并且AI大模型使用不同語言的訓(xùn)練成本,,與該語言構(gòu)筑的互聯(lián)網(wǎng)生態(tài)繁榮程度,具有明顯的相關(guān)性,,語料數(shù)據(jù)越多訓(xùn)練成本越低,。英語是目前訓(xùn)練大模型最便宜的語言,相應(yīng)的獲取荷蘭語,、越南語等小語種的數(shù)據(jù)信息成本要大許多,,這種“馬太效應(yīng)”或?qū)⑹沟糜⑽牡匚怀掷m(xù)增強(qiáng)。
2,、中文數(shù)據(jù)資源處于相對缺少狀態(tài)
當(dāng)前,,中文數(shù)據(jù)資源的積累和開源生態(tài)建設(shè)面臨一些難題。優(yōu)質(zhì)的開源中文數(shù)據(jù)集相對較少,,這在一定程度上限制了中文大模型的訓(xùn)練和優(yōu)化,。企業(yè)擔(dān)心數(shù)據(jù)對外泄露可能影響商業(yè)利益和客戶信任,因此在數(shù)據(jù)共享方面持謹(jǐn)慎態(tài)度,。大模型廠商則擔(dān)心模型資產(chǎn)安全,,害怕技術(shù)泄露或被惡意利用,這影響了他們參與開源社區(qū)的積極性,。公眾用戶對個人數(shù)據(jù)和隱私風(fēng)險(xiǎn)的擔(dān)憂也日益增加,,對數(shù)據(jù)收集和使用持保留態(tài)度。這些因素共同作用,,直接影響和制約了中文大模型的競爭潛力,。
3,、“英文敘事”主導(dǎo)大模型推理邏輯
人工智能大模型正與我們的日常生活日益緊密地結(jié)合在一起,引發(fā)一個既令人好奇又令人擔(dān)憂的問題:為什么聊天機(jī)器人的大腦——AI大模型即使在用其他語言進(jìn)行交互時,,也用英語思考,?通過跟蹤模型處理每條指令的過程可以發(fā)現(xiàn),雖然各層級的處理路徑非常復(fù)雜,,但多是通過英語作為幫助理解概念的橋梁,。大量英文語料的使用使得模型在進(jìn)行推理時往往傾向于使用英語的語法結(jié)構(gòu)和表達(dá)方式。比如,,英語中常見的因果關(guān)系表達(dá)(如“because,,” “therefore,” “as a result”)在模型生成的推理過程中經(jīng)常出現(xiàn),。此外,,隨著自然語言處理技術(shù)的發(fā)展,越來越多的大模型開始支持直接處理多種語言,,減少了對橋梁語言的依賴,。
三、英語主導(dǎo)AI大模型訓(xùn)練將擴(kuò)大“數(shù)據(jù)鴻溝”
隨著生成式人工智能(AI)的快速發(fā)展,,不少人開始擔(dān)憂“英語中心主義”將對這一技術(shù)帶來何種影響,。有觀點(diǎn)認(rèn)為,“英語中心主義”在生成式AI中將廣泛存在,,可能會強(qiáng)化西方尤其是美國在該技術(shù)體系中的壟斷地位,,甚至形成某種難以逆轉(zhuǎn)的“馬太效應(yīng)”。
1,、輸出以英文為中心價(jià)值觀
盡管部分開源大模型已經(jīng)證明,,能用多種語言處理和回答問題,但在美國最主流的幾款A(yù)I大模型中,,使用英語的表現(xiàn)通常優(yōu)于其他語言,,特別是在目標(biāo)識別、問題回答等需要復(fù)雜推理的高級任務(wù)方面,。這主要是由于訓(xùn)練這些模型的高質(zhì)量英語數(shù)據(jù),,比其他大多數(shù)語言都要多,這就很可能在無意中偏向以英語為中心的文化價(jià)值觀,,并將有限的世界觀價(jià)值觀,,疊加到不同的語言和文化地區(qū)。
2,、導(dǎo)致算法歧視和偏見問題
由于多數(shù)人工智能訓(xùn)練數(shù)據(jù)集是基于英語構(gòu)建,,非英語語言和文化的代表性不足,并且多數(shù)人工智能大模型使用的語音識別,、語言翻譯,、情感分析等自然語言處理技術(shù),,都是針對英語優(yōu)化,這導(dǎo)致人工智能算法優(yōu)化過程中也存在廣泛的語言偏見,。這不僅會影響用其他語言給出解答方案的準(zhǔn)確性,,還可能導(dǎo)致在危急情況下產(chǎn)生不相關(guān)甚至具有危險(xiǎn)性的結(jié)果。因此,,得益于將英語作為樞軸語言,,AI大模型可在多語言任務(wù)中提供很強(qiáng)的性能,但出現(xiàn)偏差的可能性也非常大,。
3、提高AI研究和應(yīng)用門檻
“英語中心主義”削弱AI多樣性,,或?qū)ι墒紸I未來發(fā)展帶來負(fù)面影響,。英語的優(yōu)勢地位影響全球人工智能研究、資源和人才的分布,,這可能導(dǎo)致使用英文數(shù)據(jù)集訓(xùn)練出來的AI大模型,,在處理與非英語語言相關(guān)的任務(wù)時性能低下。與此同時,,美英的科研機(jī)構(gòu)和大學(xué)更容易在這種環(huán)境中獲得資助和支持,,其他一些非英語國家推動規(guī)模化研究,,將面臨資金和人才上的更大挑戰(zhàn),。這種態(tài)勢使得開發(fā)英語人工智能大模型的成本低于其他語言,一些小語種可能因?yàn)殚_發(fā)成本過高而難以廣泛應(yīng)用,。
4,、塑造不公正技術(shù)生態(tài)體系
英語在人工智能模型中的主導(dǎo)地位,引發(fā)廣泛的有關(guān)多樣性和公平性的關(guān)鍵問題,。人工智能特別是生成式AI技術(shù),,在未來或?qū)l(fā)展成為一種應(yīng)用廣泛的嵌入式技術(shù)。這意味著英語優(yōu)勢的影響將不局限于人工智能領(lǐng)域,,而可能向更多領(lǐng)域擴(kuò)散,,進(jìn)而塑造出一個對于英語更加友好有利的技術(shù)生態(tài)環(huán)境。在這種新的技術(shù)生態(tài)中,,語言習(xí)慣,、邏輯結(jié)構(gòu)與英語相差較大的非英語國家,將面臨更為不利的發(fā)展環(huán)境,。
四,、提升AI大模型數(shù)據(jù)多樣性的思考
AI大模型未來版本的開發(fā),必須具有更公平的語言覆蓋范圍,,以反映和尊重人類語言和文化的豐富多樣性,。同時,,由于存在數(shù)據(jù)采集標(biāo)注成本高、數(shù)據(jù)質(zhì)量難以保障,、數(shù)據(jù)多樣化不足等問題,,這就需要克服多重障礙,設(shè)計(jì)和采用一種不以英語為中心,,能夠兼顧多種語言的AI大模型產(chǎn)業(yè)發(fā)展機(jī)制,。
1、探索多語種合成數(shù)據(jù)集方案
當(dāng)AI大模型從通用走向?qū)I(yè)應(yīng)用,,從技術(shù)想象力走向產(chǎn)業(yè)的生產(chǎn)力,,必須要解決高質(zhì)量數(shù)據(jù)集稀缺與專業(yè)數(shù)據(jù)阻滯的挑戰(zhàn)。如果AI大模型的參數(shù)達(dá)到萬億級別,,多語種合成數(shù)據(jù)將成為提供數(shù)據(jù)來源的可選方案,,某種程度緩解因客觀條件限制,或數(shù)據(jù)安全制度造成的數(shù)據(jù)樣本不足問題,??傮w來看,多語種合成數(shù)據(jù)與原始數(shù)據(jù)相比,,可以發(fā)揮類似的作用,,實(shí)現(xiàn)更加廉價(jià)、更為高效的大模型訓(xùn)練,、測試和驗(yàn)證數(shù)據(jù)供給,。同時,一定程度緩解大模型對齊階段價(jià)值觀標(biāo)準(zhǔn)不統(tǒng)一,、準(zhǔn)確性不足,、成本較高等問題。
2,、支持多語種開源數(shù)據(jù)集建設(shè)
在構(gòu)建多語種開源數(shù)據(jù)集的過程中,,確實(shí)面臨著技術(shù)與經(jīng)濟(jì)上的多重挑戰(zhàn)。首先,,需要收集和處理大量使用頻率較低的語言數(shù)據(jù),,這本身就是一個相當(dāng)大的挑戰(zhàn)。其次,,為進(jìn)一步提升多語言大模型的訓(xùn)練效果,,研究者們采用了自我指導(dǎo)的多語言指令方法,自動生成了多樣的多語言指令數(shù)據(jù),,以增強(qiáng)模型的指令遵循能力,。此外,社區(qū)合作在多語種數(shù)據(jù)集建設(shè)中也起著至關(guān)重要的作用。由此,,非英語國家需要協(xié)同合作,,共同編纂涵蓋多種語言和方言的多樣化、有代表性的AI大模型訓(xùn)練開源語料庫,。
3,、開展非英語國家的監(jiān)管合作
當(dāng)前,國際社會應(yīng)采取措施應(yīng)對“英語中心主義”帶來的偏見和數(shù)據(jù)鴻溝問題,。全球大量用戶通過中文,、法文、德文,、俄文或西文向AI大模型提問,,這就需要共同提防和應(yīng)對“英語中心主義”帶來的長期挑戰(zhàn),并且要求美英人工智能領(lǐng)軍企業(yè)采取有效措施減少算法和語言的偏見問題,,并增加對非英語國家大模型開發(fā)的技術(shù)支持,,促進(jìn)這些地區(qū)非英語生成式AI的發(fā)展。國際社會也應(yīng)加強(qiáng)非英語國家間的監(jiān)督合作,,加強(qiáng)生成式AI領(lǐng)域的全球反壟斷監(jiān)管,。
4,、發(fā)揮聯(lián)合國等國際組織作用
從數(shù)字產(chǎn)業(yè)發(fā)展歷史來看,,實(shí)現(xiàn)全球文化價(jià)值觀的多元化,是人工智能產(chǎn)業(yè)和生態(tài)獲取更高價(jià)值的重要影響因素,。AI大模型對英語的依賴反映現(xiàn)實(shí)世界中的模式,,應(yīng)對這一趨勢意味著要正視和挑戰(zhàn)這些模式,努力實(shí)現(xiàn)所有文化和語言的平等代表性,。因此,,要積極支持聯(lián)合國等國際組織作用,將應(yīng)對“英語中心主義”納入全球AI治理內(nèi)容,,在人工智能治理中強(qiáng)調(diào)多語言支持的必要性,,在國際倡議中推動人工智能技術(shù)的多文化支持,從而減少應(yīng)用和研發(fā)中的語言障礙,。
作者:張 曉
中國互聯(lián)網(wǎng)絡(luò)信息中心副主任,,聯(lián)合國互聯(lián)網(wǎng)治理論壇(IGF)多利益相關(guān)方咨詢委委員,中國IGF常務(wù)副主任
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1116862.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議。