李志起 楊明川 姚 佳編者的話:人工智能(AI)大模型的訓練,、進化都離不開數(shù)據(jù),。外媒近日報道稱,科技公司利用語音識別工具轉(zhuǎn)錄視頻網(wǎng)站上的視頻,,形成對話文本數(shù)據(jù)來訓練AI,,也有公司用社交媒體上具有版權(quán)爭議和隱私權(quán)爭議的數(shù)據(jù)來訓練AI——這些“捷徑”是否合法?合規(guī),、高質(zhì)量的AI訓練數(shù)據(jù)應(yīng)該從哪里來,?普通人的數(shù)據(jù)安全如何保障?合規(guī)性,、高質(zhì)量與多樣性的平衡李志起隨著AI技術(shù)的不斷進步,,大模型訓練對高質(zhì)量數(shù)據(jù)的需求日益凸顯。如何確保訓練數(shù)據(jù)的合規(guī)與高質(zhì)量并重,?三個原則應(yīng)遵守,。第一,堅守合規(guī)底線,,明確數(shù)據(jù)來源,。任何數(shù)據(jù)的采集和使用都必須遵守法律法規(guī),尊重原創(chuàng)精神和知識產(chǎn)權(quán),。合規(guī)的數(shù)據(jù)來源不僅是對創(chuàng)作者權(quán)益的保障,,也是AI技術(shù)健康發(fā)展的基石。合規(guī)數(shù)據(jù)首先應(yīng)該從公開數(shù)據(jù)集中獲取,,這些數(shù)據(jù)集通常由學術(shù)機構(gòu),、政府組織或大型企業(yè)公開發(fā)布,如ImageNet等圖像數(shù)據(jù)集就為圖像識別技術(shù)的發(fā)展提供了有力支持,。其次,,用戶在社交平臺上產(chǎn)生的內(nèi)容,如文本,、圖片等,,也是寶貴的訓練資源,但在使用時需確保獲得必要的授權(quán),。此外,企業(yè)還可以通過與合作伙伴共享數(shù)據(jù),、購買專業(yè)數(shù)據(jù)服務(wù)等方式獲取訓練數(shù)據(jù),。這些途徑雖然可能需要更多成本投入,但能有效規(guī)避法律風險,,同時也更有可能獲得高質(zhì)量的數(shù)據(jù)資源,。第二,合法獲取信息,保護知識產(chǎn)權(quán),。企業(yè)首先應(yīng)建立一套完善的信息獲取流程,,通過定期的培訓,提高員工對法律法規(guī)的認知和遵守意識,,以確保任何信息的采集都應(yīng)在明確的目的和合法的框架內(nèi)進行,,避免盲目和過度的數(shù)據(jù)采集。其次,,要盡其可能確保隱私保護與數(shù)據(jù)安全,,涉及個人隱私的數(shù)據(jù),如用戶的身份信息,、聯(lián)系方式等,,都需要進行嚴格的匿名化和加密處理。第三,,在使用他人的知識產(chǎn)權(quán)時,,如專利、商標,、著作權(quán)等,,企業(yè)應(yīng)嚴格遵守相關(guān)法律法規(guī),確保獲得權(quán)利人的明確許可,,并按約定支付相應(yīng)的使用費用,。第三,注重數(shù)據(jù)質(zhì)量,,提升AI性能,。數(shù)據(jù)質(zhì)量是訓練AI模型的關(guān)鍵因素之一。高質(zhì)量的數(shù)據(jù)不僅可以提高模型的準確性,,還能增強模型的泛化能力,,使其更好地適應(yīng)各種場景。此外,,AI企業(yè)必須注意加強數(shù)據(jù)標注的準確性,,以免影響模型的訓練效果。標注錯誤的數(shù)據(jù)會導(dǎo)致模型學習到錯誤的信息,,從而降低其性能,。數(shù)據(jù)的多樣性和代表性也不應(yīng)被忽視??梢酝ㄟ^收集不同來源,、不同類型的數(shù)據(jù)來增加數(shù)據(jù)的多樣性,同時還可以通過數(shù)據(jù)增強技術(shù)來擴充數(shù)據(jù)集,,提高模型的泛化能力,。與此同時,,數(shù)據(jù)的時效性和更新頻率也顯得尤為重要。應(yīng)定期更新數(shù)據(jù)集,,確保模型的時效性和準確性,,適應(yīng)新的挑戰(zhàn)和需求。(作者是北京市政協(xié)經(jīng)濟委員會副主任,,振興國際智庫理事長)三種方式獲取訓練數(shù)據(jù)楊明川常規(guī)的AI訓練數(shù)據(jù)可以來自組織生產(chǎn)環(huán)境中的數(shù)據(jù)積累,、開源數(shù)據(jù)集和人工標注數(shù)據(jù)。對于百億,、千億參數(shù)規(guī)模的大模型而言,訓練數(shù)據(jù)來源廣泛且規(guī)模龐大,,大模型廠商往往不會詳細透露其訓練數(shù)據(jù)來源或公開其訓練數(shù)據(jù)的詳細組成,。對于企業(yè)而言,合法獲得訓練數(shù)據(jù)授權(quán)的方式主要有三種,。一是收集開源數(shù)據(jù)集,。通常由學術(shù)機構(gòu)、政府組織或企業(yè)公開發(fā)布,,涵蓋各種類型,,如圖像、文本,、音頻、視頻等,。可在此基礎(chǔ)上進行二次處理,、清洗加工和人工抽檢標注,,形成高質(zhì)量的訓練數(shù)據(jù)集,;二是充分挖掘自身場景中積累下來的數(shù)據(jù),。以筆者供職的企業(yè)為例,,公司積累了大量專業(yè)運維案例、專業(yè)報告,、日志和專業(yè)問題回復(fù)等數(shù)據(jù),,可以在保證脫敏和遵守數(shù)據(jù)許可協(xié)議的前提下,用于大模型的繼續(xù)訓練和精調(diào),;三是來自行業(yè)合作伙伴的高質(zhì)量數(shù)據(jù),。通常以“合規(guī)數(shù)據(jù)授權(quán)+收益分成”的模式,,形成合力共建具備行業(yè)數(shù)據(jù)優(yōu)勢的大模型底座,。需要關(guān)注的是,隨著大模型飛速迭代,,公共數(shù)據(jù)正在被快速耗盡,。隨之而來的是私有數(shù)據(jù)合法使用的難題。用戶生成內(nèi)容,,包括公開發(fā)表的內(nèi)容,、點贊轉(zhuǎn)發(fā)等記錄數(shù)據(jù),對于數(shù)據(jù)中保持最新信息,、拓展知識范圍具有重要意義,。但需建立相對健全的機制,在遵守相關(guān)法律法規(guī),、保證隱私安全,、防止濫用的前提下,為用戶生產(chǎn)內(nèi)容提供共享或有償交易的可能性,。目前面臨的挑戰(zhàn)如下:首先,,高質(zhì)量數(shù)據(jù)非常昂貴。伴隨著公開數(shù)據(jù)的“枯竭”,,如何收集和使用更多的高質(zhì)量數(shù)據(jù),,并進行加工和標注,依然是一個繞不開的選擇,。需要企業(yè)投入更多成本,,并協(xié)同更多專業(yè)人士參與精細的標注工作。其次,,大模型訓練周期較長,,且外部知識飛速更新。如何解決“知識過期”的問題,,需要以檢索增強生成的方式,,即在大模型做出回應(yīng)之前,通過檢索相關(guān)知識,,提供參考信息,,為大模型回答的過程補充新知識。第三,,由于數(shù)據(jù)量龐大且來源多樣,,數(shù)據(jù)中存在自相矛盾、不合規(guī),、偏見冒犯等情況的內(nèi)容將難以全部檢測出來并剔除,。會導(dǎo)致訓練得到的模型底座存在輸出帶有偏見,、泄露隱私信息的可能性。企業(yè)需重視對模型數(shù)據(jù)的審查和脫敏工作,,綜合考慮技術(shù),、政策、倫理和法律法規(guī)多方因素,,持續(xù)改善相關(guān)流程,。(作者是中國電信研究院大數(shù)據(jù)與人工智能研究所所長)企業(yè)要發(fā)展,,也應(yīng)重履責姚 佳無數(shù)據(jù),不AI,。AI大模型的迭代發(fā)展離不開大體量優(yōu)質(zhì)數(shù)據(jù)“喂養(yǎng)”,。由此,“數(shù)據(jù)淘金”成為AI產(chǎn)業(yè)高質(zhì)量發(fā)展的必由之路,,優(yōu)質(zhì)數(shù)據(jù)也成為產(chǎn)業(yè)競相爭取的稀缺資源,。優(yōu)質(zhì)的數(shù)據(jù)不僅關(guān)乎發(fā)展,更關(guān)乎安全,。2023年11月,,多國簽署的《布萊奇利宣言》,其中提到AI可能會生成欺騙性內(nèi)容,,可能產(chǎn)生被有意誤用或無意控制等風險,。針對上述風險的破解之道同樣來自于數(shù)據(jù)——我們可以通過獲得“金子”一樣的好數(shù)據(jù)來訓練大模型等途徑,來進行相關(guān)破解或應(yīng)對,。然而,,AI的發(fā)展并非是孤立的。盡管在發(fā)展生成式AI市場之時,存在過多限制數(shù)據(jù)使用,,導(dǎo)致“市場失敗”的可能性,。但從目前看,科技公司為了更好地訓練大模型,,侵害他人隱私和知識產(chǎn)權(quán)的風險不容忽視,。舉例來看,美國近年來的幾起訴訟,,無論是針對OpenAI、GitHub的集體訴訟,,還是針對Stability AI,,以及美國萬名作家簽署作家協(xié)會信函呼吁AI行業(yè)保護作者權(quán)益等,這些訴訟和事件均指向利用未經(jīng)授權(quán)使用作品訓練AI產(chǎn)品或者在開源社區(qū)中可能侵害他人版權(quán)的問題,,且至今仍在激烈討論,,未能形成定論。隱私風險也同樣值得關(guān)注,。比如,,科技公司未經(jīng)用戶允許,就從手機應(yīng)用程序中收集用戶的音樂偏好,、圖像信息,、位置信息、財務(wù)數(shù)據(jù)乃至私人對話等,,用以進行AI數(shù)據(jù)訓練,。這些行為都存在侵權(quán)風險。上述案例和爭議,,要求相關(guān)企業(yè)在發(fā)展的同時,,嚴格遵循現(xiàn)有法律規(guī)則。我國于2023年7月頒布《生成式人工智能服務(wù)管理暫行辦法》,,其中第7條規(guī)定了生成式人工智能服務(wù)提供者的訓練數(shù)據(jù)處理活動要求,,即應(yīng)使用具有合法來源的數(shù)據(jù)和基礎(chǔ)模型;涉及知識產(chǎn)權(quán)的,,不得侵害他人依法享有的知識產(chǎn)權(quán),;涉及個人信息的,應(yīng)當取得個人同意或者符合法律,、行政法規(guī)規(guī)定的其他情形等等內(nèi)容,。企業(yè)作為AI大模型訓練的主體,需更加注重義務(wù)和履責,,充分考慮對于已有著作權(quán)人和個人信息主體的權(quán)利保障與利益平衡,。需要關(guān)注的是,相關(guān)企業(yè)義務(wù)是全方位,、體系化的,,包括不局限于隱私保護義務(wù),、個人信息保護等義務(wù)、數(shù)據(jù)安全保障義務(wù),、數(shù)據(jù)質(zhì)量保障義務(wù)等,。(作者是中國社會科學院法學研究所教授)▲
免責聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1096945.html
溫馨提示:投資有風險,,入市須謹慎,。本資訊不作為投資理財建議。