成在人线AV无码免费高潮喷水,最乱色男女视频完整版,小幺女一级毛片AAA春巴

來源：新浪財(cái)經(jīng)

　　AI大模型基于海量多模態(tài)數(shù)據(jù),，通過深度學(xué)習(xí),、強(qiáng)化訓(xùn)練、精調(diào)微調(diào)，可以給用戶帶來全新的智能體驗(yàn),。數(shù)據(jù)是支撐AI大模型進(jìn)化的核心要素,，數(shù)據(jù)質(zhì)量的高低對于大模型的訓(xùn)練效果有重要影響,。其中,，訓(xùn)練語料的多樣性和代表性，將對人類社會的語言和文化多樣性產(chǎn)生深遠(yuǎn)的影響,。當(dāng)前,，英文數(shù)據(jù)在大模型訓(xùn)練語料中占據(jù)著顯著的規(guī)模優(yōu)勢，引發(fā)關(guān)于“英語中心主義”及其社會和文化影響的擔(dān)憂,，這給人工智能發(fā)展提出重要問題：如何確保技術(shù)進(jìn)步公平地惠及所有文化和語言,？

　　一、數(shù)據(jù)是AI大模型發(fā)展的基礎(chǔ)要素資源

　　隨著數(shù)據(jù)處理技術(shù)的進(jìn)步和數(shù)據(jù)服務(wù)產(chǎn)業(yè)的發(fā)展,，全球可用的大模型數(shù)據(jù)集數(shù)量,、質(zhì)量和種類都將得到提升和完善。人工智能產(chǎn)業(yè)的發(fā)展程度，與訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量密不可分,，開展科學(xué)有效的數(shù)據(jù)治理,，將為人工智能大模型產(chǎn)業(yè)高質(zhì)量發(fā)展提供重要保障。

　　1,、公開數(shù)據(jù)是AI大模型訓(xùn)練主要來源

　　AI大模型訓(xùn)練公開渠道獲取的數(shù)據(jù)主要來自維基百科（Wikipedia）,、書籍（Books）、期刊（Journals）,、Reddit社交新聞?wù)军c(diǎn),、Common Crawl和其他數(shù)據(jù)集。同時,，包括由政府組織,、科研學(xué)術(shù)機(jī)構(gòu)或企業(yè)，公開發(fā)布的圖像,、文本,、音頻、視頻等各種類型的數(shù)據(jù),。與此同時,，互聯(lián)網(wǎng)本身承載大量信息和數(shù)據(jù)，互聯(lián)網(wǎng)公開的數(shù)據(jù)資源包括UGC平臺,、社交網(wǎng)絡(luò)媒體,、論壇博客資料、新聞網(wǎng)站信息等,，以及用戶發(fā)表的內(nèi)容,、回復(fù)、評論等內(nèi)容,，都可以成為大模型訓(xùn)練的數(shù)據(jù)源,。

　　2、私域數(shù)據(jù)對大模型訓(xùn)練具有更高價(jià)值

　　用于大模型訓(xùn)練的私域數(shù)據(jù),，包括企業(yè)依據(jù)自身業(yè)務(wù)歷史積累的數(shù)據(jù),，即根據(jù)業(yè)務(wù)特性和場景積累，自身可以利用的一系列數(shù)據(jù),?；蛘咭恍C(jī)構(gòu)、學(xué)者擁有較為獨(dú)特的數(shù)據(jù)資源,，并愿意以各種形式合作共享,，支持不同領(lǐng)域的研究和應(yīng)用，尤其是針對能夠共同提高人類福祉的領(lǐng)域,。例如,，在醫(yī)療領(lǐng)域,，醫(yī)療機(jī)構(gòu)通常會收集大量的醫(yī)療影像數(shù)據(jù)，這些數(shù)據(jù)可以用于訓(xùn)練圖像分析,，或者特定疾病檢測等任務(wù),。然而，這些數(shù)據(jù)的私域化或版權(quán)化保護(hù),，會導(dǎo)致原本具有高價(jià)值的數(shù)據(jù)集存在流通性和利用率不足的問題,。

　　3、數(shù)據(jù)規(guī)模質(zhì)量決定大模型訓(xùn)練效果

　　AI大模型訓(xùn)練需要基于大量的文本,、圖像,、語音、視頻等結(jié)構(gòu)化和非結(jié)構(gòu)化的多模態(tài)數(shù)據(jù)集,。近年來,，基于移動互聯(lián)網(wǎng)時代積累的海量用戶、應(yīng)用和數(shù)據(jù),，全球范圍內(nèi)數(shù)據(jù)集規(guī)模呈現(xiàn)出爆發(fā)增長的態(tài)勢,，疊加更加強(qiáng)大的算力芯片數(shù)據(jù)處理能力，從而能夠?qū)崿F(xiàn)AI模型訓(xùn)練成果的提升,。例如,，GPT-3的訓(xùn)練數(shù)據(jù)集規(guī)模達(dá)到753GB，而ChatGPT的多模態(tài)數(shù)據(jù)集則達(dá)到45TB,，這相當(dāng)于超萬億單詞的人類語言數(shù)據(jù)集,。因此，數(shù)據(jù)供給的規(guī)模和質(zhì)量,，決定大模型訓(xùn)練“大力出奇跡”效果的上限,。

　　4、數(shù)據(jù)選擇將影響AI大模型的價(jià)值觀

　　由于AI大模型多采用半監(jiān)督或無監(jiān)督的學(xué)習(xí)模式進(jìn)行預(yù)訓(xùn)練,，訓(xùn)練數(shù)據(jù)選擇對模型訓(xùn)練的結(jié)果具有重要影響,，如果訓(xùn)練數(shù)據(jù)在選擇時出現(xiàn)偏差，大量未標(biāo)注的數(shù)據(jù)參與模型訓(xùn)練,，這將導(dǎo)致AI大模型延續(xù)原始數(shù)據(jù)中存在的價(jià)值觀念,。因此，不同國家,、不同區(qū)域的生成式人工智能大模型,，由于數(shù)據(jù)選擇的差異，訓(xùn)練結(jié)果可能攜帶區(qū)域文化和價(jià)值觀的固有偏見,，甚至產(chǎn)生性別歧視,、種族仇恨、惡意言論,、排斥性規(guī)范等現(xiàn)象,，這就需要重視模型的價(jià)值觀對齊問題,。數(shù)據(jù)選擇不僅影響模型的語言理解能力，還可能塑造模型的決策過程和輸出結(jié)果的公正和客觀,。

　　二、AI大模型訓(xùn)練呈現(xiàn)“英語中心主義”特征

　　“英語中心主義”指的是英語文化,、歷史和價(jià)值觀在全球文化,、意識形態(tài)領(lǐng)域非對稱的影響力，其他非英語國家的民眾,，往往需要接受英語和相關(guān)文化教育才能融入國際社會,。這一現(xiàn)象在AI大模型訓(xùn)練推理過程中得到凸顯，或?qū)?dǎo)致一些語言和文化在人工智能時代被日益邊緣化,。

　　1,、英文數(shù)據(jù)集具有明顯的優(yōu)勢地位

　　在人工智能訓(xùn)練領(lǐng)域，英語的優(yōu)勢地位非常明顯,，當(dāng)前最知名的生成式人工智能AI大模型,，約90%的訓(xùn)練數(shù)據(jù)由英文文本構(gòu)成，這主要是由全球互聯(lián)網(wǎng)的語言現(xiàn)狀所導(dǎo)致,。并且AI大模型使用不同語言的訓(xùn)練成本,，與該語言構(gòu)筑的互聯(lián)網(wǎng)生態(tài)繁榮程度，具有明顯的相關(guān)性,，語料數(shù)據(jù)越多訓(xùn)練成本越低,。英語是目前訓(xùn)練大模型最便宜的語言，相應(yīng)的獲取荷蘭語,、越南語等小語種的數(shù)據(jù)信息成本要大許多,，這種“馬太效應(yīng)”或?qū)⑹沟糜⑽牡匚怀掷m(xù)增強(qiáng)。

　　2,、中文數(shù)據(jù)資源處于相對缺少狀態(tài)

　　當(dāng)前,，中文數(shù)據(jù)資源的積累和開源生態(tài)建設(shè)面臨一些難題。優(yōu)質(zhì)的開源中文數(shù)據(jù)集相對較少,，這在一定程度上限制了中文大模型的訓(xùn)練和優(yōu)化,。企業(yè)擔(dān)心數(shù)據(jù)對外泄露可能影響商業(yè)利益和客戶信任，因此在數(shù)據(jù)共享方面持謹(jǐn)慎態(tài)度,。大模型廠商則擔(dān)心模型資產(chǎn)安全,，害怕技術(shù)泄露或被惡意利用，這影響了他們參與開源社區(qū)的積極性,。公眾用戶對個人數(shù)據(jù)和隱私風(fēng)險(xiǎn)的擔(dān)憂也日益增加,，對數(shù)據(jù)收集和使用持保留態(tài)度。這些因素共同作用,，直接影響和制約了中文大模型的競爭潛力,。

　　3,、“英文敘事”主導(dǎo)大模型推理邏輯

　　人工智能大模型正與我們的日常生活日益緊密地結(jié)合在一起，引發(fā)一個既令人好奇又令人擔(dān)憂的問題：為什么聊天機(jī)器人的大腦——AI大模型即使在用其他語言進(jìn)行交互時,，也用英語思考,？通過跟蹤模型處理每條指令的過程可以發(fā)現(xiàn)，雖然各層級的處理路徑非常復(fù)雜,，但多是通過英語作為幫助理解概念的橋梁,。大量英文語料的使用使得模型在進(jìn)行推理時往往傾向于使用英語的語法結(jié)構(gòu)和表達(dá)方式。比如,，英語中常見的因果關(guān)系表達(dá)（如“because,，” “therefore，” “as a result”）在模型生成的推理過程中經(jīng)常出現(xiàn),。此外,，隨著自然語言處理技術(shù)的發(fā)展，越來越多的大模型開始支持直接處理多種語言,，減少了對橋梁語言的依賴,。

　　三、英語主導(dǎo)AI大模型訓(xùn)練將擴(kuò)大“數(shù)據(jù)鴻溝”

　　隨著生成式人工智能（AI）的快速發(fā)展,，不少人開始擔(dān)憂“英語中心主義”將對這一技術(shù)帶來何種影響,。有觀點(diǎn)認(rèn)為，“英語中心主義”在生成式AI中將廣泛存在,，可能會強(qiáng)化西方尤其是美國在該技術(shù)體系中的壟斷地位,，甚至形成某種難以逆轉(zhuǎn)的“馬太效應(yīng)”。

　　1,、輸出以英文為中心價(jià)值觀

　　盡管部分開源大模型已經(jīng)證明,，能用多種語言處理和回答問題，但在美國最主流的幾款A(yù)I大模型中,，使用英語的表現(xiàn)通常優(yōu)于其他語言,，特別是在目標(biāo)識別、問題回答等需要復(fù)雜推理的高級任務(wù)方面,。這主要是由于訓(xùn)練這些模型的高質(zhì)量英語數(shù)據(jù),，比其他大多數(shù)語言都要多，這就很可能在無意中偏向以英語為中心的文化價(jià)值觀,，并將有限的世界觀價(jià)值觀,，疊加到不同的語言和文化地區(qū)。

　　2,、導(dǎo)致算法歧視和偏見問題

　　由于多數(shù)人工智能訓(xùn)練數(shù)據(jù)集是基于英語構(gòu)建,，非英語語言和文化的代表性不足，并且多數(shù)人工智能大模型使用的語音識別,、語言翻譯,、情感分析等自然語言處理技術(shù),，都是針對英語優(yōu)化，這導(dǎo)致人工智能算法優(yōu)化過程中也存在廣泛的語言偏見,。這不僅會影響用其他語言給出解答方案的準(zhǔn)確性,，還可能導(dǎo)致在危急情況下產(chǎn)生不相關(guān)甚至具有危險(xiǎn)性的結(jié)果。因此,，得益于將英語作為樞軸語言,，AI大模型可在多語言任務(wù)中提供很強(qiáng)的性能，但出現(xiàn)偏差的可能性也非常大,。

　　3、提高AI研究和應(yīng)用門檻

　　“英語中心主義”削弱AI多樣性,，或?qū)ι墒紸I未來發(fā)展帶來負(fù)面影響,。英語的優(yōu)勢地位影響全球人工智能研究、資源和人才的分布,，這可能導(dǎo)致使用英文數(shù)據(jù)集訓(xùn)練出來的AI大模型,，在處理與非英語語言相關(guān)的任務(wù)時性能低下。與此同時,，美英的科研機(jī)構(gòu)和大學(xué)更容易在這種環(huán)境中獲得資助和支持,，其他一些非英語國家推動規(guī)模化研究,，將面臨資金和人才上的更大挑戰(zhàn),。這種態(tài)勢使得開發(fā)英語人工智能大模型的成本低于其他語言，一些小語種可能因?yàn)殚_發(fā)成本過高而難以廣泛應(yīng)用,。

　　4,、塑造不公正技術(shù)生態(tài)體系

　　英語在人工智能模型中的主導(dǎo)地位，引發(fā)廣泛的有關(guān)多樣性和公平性的關(guān)鍵問題,。人工智能特別是生成式AI技術(shù),，在未來或?qū)l(fā)展成為一種應(yīng)用廣泛的嵌入式技術(shù)。這意味著英語優(yōu)勢的影響將不局限于人工智能領(lǐng)域,，而可能向更多領(lǐng)域擴(kuò)散,，進(jìn)而塑造出一個對于英語更加友好有利的技術(shù)生態(tài)環(huán)境。在這種新的技術(shù)生態(tài)中,，語言習(xí)慣,、邏輯結(jié)構(gòu)與英語相差較大的非英語國家，將面臨更為不利的發(fā)展環(huán)境,。

　　四,、提升AI大模型數(shù)據(jù)多樣性的思考

　　AI大模型未來版本的開發(fā)，必須具有更公平的語言覆蓋范圍,，以反映和尊重人類語言和文化的豐富多樣性,。同時,，由于存在數(shù)據(jù)采集標(biāo)注成本高、數(shù)據(jù)質(zhì)量難以保障,、數(shù)據(jù)多樣化不足等問題,，這就需要克服多重障礙，設(shè)計(jì)和采用一種不以英語為中心,，能夠兼顧多種語言的AI大模型產(chǎn)業(yè)發(fā)展機(jī)制,。

　　1、探索多語種合成數(shù)據(jù)集方案

　　當(dāng)AI大模型從通用走向?qū)I(yè)應(yīng)用,，從技術(shù)想象力走向產(chǎn)業(yè)的生產(chǎn)力,，必須要解決高質(zhì)量數(shù)據(jù)集稀缺與專業(yè)數(shù)據(jù)阻滯的挑戰(zhàn)。如果AI大模型的參數(shù)達(dá)到萬億級別,，多語種合成數(shù)據(jù)將成為提供數(shù)據(jù)來源的可選方案,，某種程度緩解因客觀條件限制，或數(shù)據(jù)安全制度造成的數(shù)據(jù)樣本不足問題,?？傮w來看，多語種合成數(shù)據(jù)與原始數(shù)據(jù)相比,，可以發(fā)揮類似的作用,，實(shí)現(xiàn)更加廉價(jià)、更為高效的大模型訓(xùn)練,、測試和驗(yàn)證數(shù)據(jù)供給,。同時，一定程度緩解大模型對齊階段價(jià)值觀標(biāo)準(zhǔn)不統(tǒng)一,、準(zhǔn)確性不足,、成本較高等問題。

　　2,、支持多語種開源數(shù)據(jù)集建設(shè)

　　在構(gòu)建多語種開源數(shù)據(jù)集的過程中,，確實(shí)面臨著技術(shù)與經(jīng)濟(jì)上的多重挑戰(zhàn)。首先,，需要收集和處理大量使用頻率較低的語言數(shù)據(jù),，這本身就是一個相當(dāng)大的挑戰(zhàn)。其次,，為進(jìn)一步提升多語言大模型的訓(xùn)練效果,，研究者們采用了自我指導(dǎo)的多語言指令方法，自動生成了多樣的多語言指令數(shù)據(jù),，以增強(qiáng)模型的指令遵循能力,。此外，社區(qū)合作在多語種數(shù)據(jù)集建設(shè)中也起著至關(guān)重要的作用。由此,，非英語國家需要協(xié)同合作,，共同編纂涵蓋多種語言和方言的多樣化、有代表性的AI大模型訓(xùn)練開源語料庫,。

　　3,、開展非英語國家的監(jiān)管合作

　　當(dāng)前，國際社會應(yīng)采取措施應(yīng)對“英語中心主義”帶來的偏見和數(shù)據(jù)鴻溝問題,。全球大量用戶通過中文,、法文、德文,、俄文或西文向AI大模型提問,，這就需要共同提防和應(yīng)對“英語中心主義”帶來的長期挑戰(zhàn)，并且要求美英人工智能領(lǐng)軍企業(yè)采取有效措施減少算法和語言的偏見問題,，并增加對非英語國家大模型開發(fā)的技術(shù)支持,，促進(jìn)這些地區(qū)非英語生成式AI的發(fā)展。國際社會也應(yīng)加強(qiáng)非英語國家間的監(jiān)督合作,，加強(qiáng)生成式AI領(lǐng)域的全球反壟斷監(jiān)管,。

　　4,、發(fā)揮聯(lián)合國等國際組織作用

　　從數(shù)字產(chǎn)業(yè)發(fā)展歷史來看,，實(shí)現(xiàn)全球文化價(jià)值觀的多元化，是人工智能產(chǎn)業(yè)和生態(tài)獲取更高價(jià)值的重要影響因素,。AI大模型對英語的依賴反映現(xiàn)實(shí)世界中的模式,，應(yīng)對這一趨勢意味著要正視和挑戰(zhàn)這些模式，努力實(shí)現(xiàn)所有文化和語言的平等代表性,。因此,，要積極支持聯(lián)合國等國際組織作用，將應(yīng)對“英語中心主義”納入全球AI治理內(nèi)容,，在人工智能治理中強(qiáng)調(diào)多語言支持的必要性,，在國際倡議中推動人工智能技術(shù)的多文化支持，從而減少應(yīng)用和研發(fā)中的語言障礙,。

　　作者：張曉

　　中國互聯(lián)網(wǎng)絡(luò)信息中心副主任,，聯(lián)合國互聯(lián)網(wǎng)治理論壇（IGF）多利益相關(guān)方咨詢委委員，中國IGF常務(wù)副主任

免責(zé)聲明：本文來自網(wǎng)絡(luò)收錄或投稿,，觀點(diǎn)僅代表作者本人,，不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述，版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處：http://lequren.com/1116862.html
溫馨提示：投資有風(fēng)險(xiǎn),，入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議。

跨越數(shù)據(jù)鴻溝：構(gòu)建多語言共融的人工智能未來

相關(guān)推薦