李志起 楊明川 姚 佳編者的話:人工智能(AI)大模型的訓(xùn)練、進(jìn)化都離不開數(shù)據(jù),。外媒近日報(bào)道稱,,科技公司利用語音識(shí)別工具轉(zhuǎn)錄視頻網(wǎng)站上的視頻,形成對話文本數(shù)據(jù)來訓(xùn)練AI,也有公司用社交媒體上具有版權(quán)爭議和隱私權(quán)爭議的數(shù)據(jù)來訓(xùn)練AI——這些“捷徑”是否合法,?合規(guī),、高質(zhì)量的AI訓(xùn)練數(shù)據(jù)應(yīng)該從哪里來?普通人的數(shù)據(jù)安全如何保障,?合規(guī)性,、高質(zhì)量與多樣性的平衡李志起隨著AI技術(shù)的不斷進(jìn)步,大模型訓(xùn)練對高質(zhì)量數(shù)據(jù)的需求日益凸顯,。如何確保訓(xùn)練數(shù)據(jù)的合規(guī)與高質(zhì)量并重,?三個(gè)原則應(yīng)遵守。第一,,堅(jiān)守合規(guī)底線,,明確數(shù)據(jù)來源。任何數(shù)據(jù)的采集和使用都必須遵守法律法規(guī),,尊重原創(chuàng)精神和知識(shí)產(chǎn)權(quán),。合規(guī)的數(shù)據(jù)來源不僅是對創(chuàng)作者權(quán)益的保障,也是AI技術(shù)健康發(fā)展的基石,。合規(guī)數(shù)據(jù)首先應(yīng)該從公開數(shù)據(jù)集中獲取,,這些數(shù)據(jù)集通常由學(xué)術(shù)機(jī)構(gòu)、政府組織或大型企業(yè)公開發(fā)布,,如ImageNet等圖像數(shù)據(jù)集就為圖像識(shí)別技術(shù)的發(fā)展提供了有力支持,。其次,用戶在社交平臺(tái)上產(chǎn)生的內(nèi)容,,如文本,、圖片等,也是寶貴的訓(xùn)練資源,,但在使用時(shí)需確保獲得必要的授權(quán),。此外,企業(yè)還可以通過與合作伙伴共享數(shù)據(jù),、購買專業(yè)數(shù)據(jù)服務(wù)等方式獲取訓(xùn)練數(shù)據(jù),。這些途徑雖然可能需要更多成本投入,但能有效規(guī)避法律風(fēng)險(xiǎn),,同時(shí)也更有可能獲得高質(zhì)量的數(shù)據(jù)資源,。第二,合法獲取信息,,保護(hù)知識(shí)產(chǎn)權(quán),。企業(yè)首先應(yīng)建立一套完善的信息獲取流程,通過定期的培訓(xùn),,提高員工對法律法規(guī)的認(rèn)知和遵守意識(shí),,以確保任何信息的采集都應(yīng)在明確的目的和合法的框架內(nèi)進(jìn)行,,避免盲目和過度的數(shù)據(jù)采集。其次,,要盡其可能確保隱私保護(hù)與數(shù)據(jù)安全,,涉及個(gè)人隱私的數(shù)據(jù),如用戶的身份信息,、聯(lián)系方式等,,都需要進(jìn)行嚴(yán)格的匿名化和加密處理。第三,,在使用他人的知識(shí)產(chǎn)權(quán)時(shí),,如專利、商標(biāo),、著作權(quán)等,,企業(yè)應(yīng)嚴(yán)格遵守相關(guān)法律法規(guī),確保獲得權(quán)利人的明確許可,,并按約定支付相應(yīng)的使用費(fèi)用,。第三,注重?cái)?shù)據(jù)質(zhì)量,,提升AI性能,。數(shù)據(jù)質(zhì)量是訓(xùn)練AI模型的關(guān)鍵因素之一。高質(zhì)量的數(shù)據(jù)不僅可以提高模型的準(zhǔn)確性,,還能增強(qiáng)模型的泛化能力,,使其更好地適應(yīng)各種場景。此外,,AI企業(yè)必須注意加強(qiáng)數(shù)據(jù)標(biāo)注的準(zhǔn)確性,,以免影響模型的訓(xùn)練效果。標(biāo)注錯(cuò)誤的數(shù)據(jù)會(huì)導(dǎo)致模型學(xué)習(xí)到錯(cuò)誤的信息,,從而降低其性能,。數(shù)據(jù)的多樣性和代表性也不應(yīng)被忽視??梢酝ㄟ^收集不同來源,、不同類型的數(shù)據(jù)來增加數(shù)據(jù)的多樣性,同時(shí)還可以通過數(shù)據(jù)增強(qiáng)技術(shù)來擴(kuò)充數(shù)據(jù)集,,提高模型的泛化能力,。與此同時(shí),數(shù)據(jù)的時(shí)效性和更新頻率也顯得尤為重要,。應(yīng)定期更新數(shù)據(jù)集,,確保模型的時(shí)效性和準(zhǔn)確性,適應(yīng)新的挑戰(zhàn)和需求,。(作者是北京市政協(xié)經(jīng)濟(jì)委員會(huì)副主任,,振興國際智庫理事長)三種方式獲取訓(xùn)練數(shù)據(jù)楊明川常規(guī)的AI訓(xùn)練數(shù)據(jù)可以來自組織生產(chǎn)環(huán)境中的數(shù)據(jù)積累、開源數(shù)據(jù)集和人工標(biāo)注數(shù)據(jù),。對于百億,、千億參數(shù)規(guī)模的大模型而言,訓(xùn)練數(shù)據(jù)來源廣泛且規(guī)模龐大,,大模型廠商往往不會(huì)詳細(xì)透露其訓(xùn)練數(shù)據(jù)來源或公開其訓(xùn)練數(shù)據(jù)的詳細(xì)組成,。對于企業(yè)而言,合法獲得訓(xùn)練數(shù)據(jù)授權(quán)的方式主要有三種,。一是收集開源數(shù)據(jù)集,。通常由學(xué)術(shù)機(jī)構(gòu)、政府組織或企業(yè)公開發(fā)布,,涵蓋各種類型,,如圖像、文本,、音頻,、視頻等??稍诖嘶A(chǔ)上進(jìn)行二次處理,、清洗加工和人工抽檢標(biāo)注,形成高質(zhì)量的訓(xùn)練數(shù)據(jù)集,;二是充分挖掘自身場景中積累下來的數(shù)據(jù),。以筆者供職的企業(yè)為例,公司積累了大量專業(yè)運(yùn)維案例,、專業(yè)報(bào)告,、日志和專業(yè)問題回復(fù)等數(shù)據(jù),可以在保證脫敏和遵守?cái)?shù)據(jù)許可協(xié)議的前提下,,用于大模型的繼續(xù)訓(xùn)練和精調(diào),;三是來自行業(yè)合作伙伴的高質(zhì)量數(shù)據(jù)。通常以“合規(guī)數(shù)據(jù)授權(quán)+收益分成”的模式,,形成合力共建具備行業(yè)數(shù)據(jù)優(yōu)勢的大模型底座,。需要關(guān)注的是,隨著大模型飛速迭代,,公共數(shù)據(jù)正在被快速耗盡,。隨之而來的是私有數(shù)據(jù)合法使用的難題。用戶生成內(nèi)容,,包括公開發(fā)表的內(nèi)容,、點(diǎn)贊轉(zhuǎn)發(fā)等記錄數(shù)據(jù),對于數(shù)據(jù)中保持最新信息,、拓展知識(shí)范圍具有重要意義,。但需建立相對健全的機(jī)制,,在遵守相關(guān)法律法規(guī)、保證隱私安全,、防止濫用的前提下,,為用戶生產(chǎn)內(nèi)容提供共享或有償交易的可能性。目前面臨的挑戰(zhàn)如下:首先,,高質(zhì)量數(shù)據(jù)非常昂貴,。伴隨著公開數(shù)據(jù)的“枯竭”,如何收集和使用更多的高質(zhì)量數(shù)據(jù),,并進(jìn)行加工和標(biāo)注,,依然是一個(gè)繞不開的選擇。需要企業(yè)投入更多成本,,并協(xié)同更多專業(yè)人士參與精細(xì)的標(biāo)注工作,。其次,大模型訓(xùn)練周期較長,,且外部知識(shí)飛速更新,。如何解決“知識(shí)過期”的問題,需要以檢索增強(qiáng)生成的方式,,即在大模型做出回應(yīng)之前,,通過檢索相關(guān)知識(shí),提供參考信息,,為大模型回答的過程補(bǔ)充新知識(shí),。第三,由于數(shù)據(jù)量龐大且來源多樣,,數(shù)據(jù)中存在自相矛盾,、不合規(guī)、偏見冒犯等情況的內(nèi)容將難以全部檢測出來并剔除,。會(huì)導(dǎo)致訓(xùn)練得到的模型底座存在輸出帶有偏見,、泄露隱私信息的可能性。企業(yè)需重視對模型數(shù)據(jù)的審查和脫敏工作,,綜合考慮技術(shù),、政策、倫理和法律法規(guī)多方因素,,持續(xù)改善相關(guān)流程,。(作者是中國電信研究院大數(shù)據(jù)與人工智能研究所所長)企業(yè)要發(fā)展,,也應(yīng)重履責(zé)姚 佳無數(shù)據(jù),不AI,。AI大模型的迭代發(fā)展離不開大體量優(yōu)質(zhì)數(shù)據(jù)“喂養(yǎng)”,。由此,“數(shù)據(jù)淘金”成為AI產(chǎn)業(yè)高質(zhì)量發(fā)展的必由之路,,優(yōu)質(zhì)數(shù)據(jù)也成為產(chǎn)業(yè)競相爭取的稀缺資源,。優(yōu)質(zhì)的數(shù)據(jù)不僅關(guān)乎發(fā)展,更關(guān)乎安全,。2023年11月,,多國簽署的《布萊奇利宣言》,其中提到AI可能會(huì)生成欺騙性內(nèi)容,,可能產(chǎn)生被有意誤用或無意控制等風(fēng)險(xiǎn),。針對上述風(fēng)險(xiǎn)的破解之道同樣來自于數(shù)據(jù)——我們可以通過獲得“金子”一樣的好數(shù)據(jù)來訓(xùn)練大模型等途徑,來進(jìn)行相關(guān)破解或應(yīng)對,。然而,,AI的發(fā)展并非是孤立的。盡管在發(fā)展生成式AI市場之時(shí),,存在過多限制數(shù)據(jù)使用,,導(dǎo)致“市場失敗”的可能性。但從目前看,,科技公司為了更好地訓(xùn)練大模型,,侵害他人隱私和知識(shí)產(chǎn)權(quán)的風(fēng)險(xiǎn)不容忽視。舉例來看,,美國近年來的幾起訴訟,,無論是針對OpenAI、GitHub的集體訴訟,,還是針對Stability AI,,以及美國萬名作家簽署作家協(xié)會(huì)信函呼吁AI行業(yè)保護(hù)作者權(quán)益等,這些訴訟和事件均指向利用未經(jīng)授權(quán)使用作品訓(xùn)練AI產(chǎn)品或者在開源社區(qū)中可能侵害他人版權(quán)的問題,,且至今仍在激烈討論,,未能形成定論,。隱私風(fēng)險(xiǎn)也同樣值得關(guān)注。比如,,科技公司未經(jīng)用戶允許,,就從手機(jī)應(yīng)用程序中收集用戶的音樂偏好、圖像信息,、位置信息,、財(cái)務(wù)數(shù)據(jù)乃至私人對話等,用以進(jìn)行AI數(shù)據(jù)訓(xùn)練,。這些行為都存在侵權(quán)風(fēng)險(xiǎn),。上述案例和爭議,要求相關(guān)企業(yè)在發(fā)展的同時(shí),,嚴(yán)格遵循現(xiàn)有法律規(guī)則,。我國于2023年7月頒布《生成式人工智能服務(wù)管理暫行辦法》,其中第7條規(guī)定了生成式人工智能服務(wù)提供者的訓(xùn)練數(shù)據(jù)處理活動(dòng)要求,,即應(yīng)使用具有合法來源的數(shù)據(jù)和基礎(chǔ)模型,;涉及知識(shí)產(chǎn)權(quán)的,不得侵害他人依法享有的知識(shí)產(chǎn)權(quán),;涉及個(gè)人信息的,,應(yīng)當(dāng)取得個(gè)人同意或者符合法律、行政法規(guī)規(guī)定的其他情形等等內(nèi)容,。企業(yè)作為AI大模型訓(xùn)練的主體,,需更加注重義務(wù)和履責(zé),充分考慮對于已有著作權(quán)人和個(gè)人信息主體的權(quán)利保障與利益平衡,。需要關(guān)注的是,,相關(guān)企業(yè)義務(wù)是全方位、體系化的,,包括不局限于隱私保護(hù)義務(wù),、個(gè)人信息保護(hù)等義務(wù)、數(shù)據(jù)安全保障義務(wù),、數(shù)據(jù)質(zhì)量保障義務(wù)等,。(作者是中國社會(huì)科學(xué)院法學(xué)研究所教授)▲
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1096945.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。