真人抽搐一进一出GIF,麻花传媒mdoo7沈芯语在线

李志起楊明川姚佳編者的話：人工智能（AI）大模型的訓練,、進化都離不開數(shù)據(jù)。外媒近日報道稱,，科技公司利用語音識別工具轉(zhuǎn)錄視頻網(wǎng)站上的視頻,，形成對話文本數(shù)據(jù)來訓練AI，也有公司用社交媒體上具有版權(quán)爭議和隱私權(quán)爭議的數(shù)據(jù)來訓練AI——這些“捷徑”是否合法,？合規(guī),、高質(zhì)量的AI訓練數(shù)據(jù)應該從哪里來？普通人的數(shù)據(jù)安全如何保障,？合規(guī)性,、高質(zhì)量與多樣性的平衡李志起隨著AI技術(shù)的不斷進步，大模型訓練對高質(zhì)量數(shù)據(jù)的需求日益凸顯,。如何確保訓練數(shù)據(jù)的合規(guī)與高質(zhì)量并重,？三個原則應遵守。第一,，堅守合規(guī)底線,，明確數(shù)據(jù)來源。任何數(shù)據(jù)的采集和使用都必須遵守法律法規(guī),，尊重原創(chuàng)精神和知識產(chǎn)權(quán),。合規(guī)的數(shù)據(jù)來源不僅是對創(chuàng)作者權(quán)益的保障，也是AI技術(shù)健康發(fā)展的基石,。合規(guī)數(shù)據(jù)首先應該從公開數(shù)據(jù)集中獲取，這些數(shù)據(jù)集通常由學術(shù)機構(gòu),、政府組織或大型企業(yè)公開發(fā)布,，如ImageNet等圖像數(shù)據(jù)集就為圖像識別技術(shù)的發(fā)展提供了有力支持。其次，用戶在社交平臺上產(chǎn)生的內(nèi)容,，如文本,、圖片等，也是寶貴的訓練資源,，但在使用時需確保獲得必要的授權(quán),。此外，企業(yè)還可以通過與合作伙伴共享數(shù)據(jù),、購買專業(yè)數(shù)據(jù)服務等方式獲取訓練數(shù)據(jù),。這些途徑雖然可能需要更多成本投入，但能有效規(guī)避法律風險,，同時也更有可能獲得高質(zhì)量的數(shù)據(jù)資源,。第二，合法獲取信息,，保護知識產(chǎn)權(quán),。企業(yè)首先應建立一套完善的信息獲取流程，通過定期的培訓,，提高員工對法律法規(guī)的認知和遵守意識,，以確保任何信息的采集都應在明確的目的和合法的框架內(nèi)進行，避免盲目和過度的數(shù)據(jù)采集,。其次,，要盡其可能確保隱私保護與數(shù)據(jù)安全，涉及個人隱私的數(shù)據(jù),，如用戶的身份信息,、聯(lián)系方式等，都需要進行嚴格的匿名化和加密處理,。第三,，在使用他人的知識產(chǎn)權(quán)時，如專利,、商標,、著作權(quán)等，企業(yè)應嚴格遵守相關(guān)法律法規(guī),，確保獲得權(quán)利人的明確許可,，并按約定支付相應的使用費用。第三,，注重數(shù)據(jù)質(zhì)量,，提升AI性能。數(shù)據(jù)質(zhì)量是訓練AI模型的關(guān)鍵因素之一,。高質(zhì)量的數(shù)據(jù)不僅可以提高模型的準確性,，還能增強模型的泛化能力,，使其更好地適應各種場景。此外,，AI企業(yè)必須注意加強數(shù)據(jù)標注的準確性,，以免影響模型的訓練效果。標注錯誤的數(shù)據(jù)會導致模型學習到錯誤的信息,，從而降低其性能,。數(shù)據(jù)的多樣性和代表性也不應被忽視?？梢酝ㄟ^收集不同來源,、不同類型的數(shù)據(jù)來增加數(shù)據(jù)的多樣性，同時還可以通過數(shù)據(jù)增強技術(shù)來擴充數(shù)據(jù)集,，提高模型的泛化能力,。與此同時，數(shù)據(jù)的時效性和更新頻率也顯得尤為重要,。應定期更新數(shù)據(jù)集,，確保模型的時效性和準確性，適應新的挑戰(zhàn)和需求,。（作者是北京市政協(xié)經(jīng)濟委員會副主任,，振興國際智庫理事長）三種方式獲取訓練數(shù)據(jù)楊明川常規(guī)的AI訓練數(shù)據(jù)可以來自組織生產(chǎn)環(huán)境中的數(shù)據(jù)積累、開源數(shù)據(jù)集和人工標注數(shù)據(jù),。對于百億,、千億參數(shù)規(guī)模的大模型而言，訓練數(shù)據(jù)來源廣泛且規(guī)模龐大,，大模型廠商往往不會詳細透露其訓練數(shù)據(jù)來源或公開其訓練數(shù)據(jù)的詳細組成,。對于企業(yè)而言，合法獲得訓練數(shù)據(jù)授權(quán)的方式主要有三種,。一是收集開源數(shù)據(jù)集,。通常由學術(shù)機構(gòu)、政府組織或企業(yè)公開發(fā)布,，涵蓋各種類型,，如圖像、文本,、音頻,、視頻等?？稍诖嘶A上進行二次處理,、清洗加工和人工抽檢標注,，形成高質(zhì)量的訓練數(shù)據(jù)集,；二是充分挖掘自身場景中積累下來的數(shù)據(jù),。以筆者供職的企業(yè)為例，公司積累了大量專業(yè)運維案例,、專業(yè)報告,、日志和專業(yè)問題回復等數(shù)據(jù),，可以在保證脫敏和遵守數(shù)據(jù)許可協(xié)議的前提下,，用于大模型的繼續(xù)訓練和精調(diào),；三是來自行業(yè)合作伙伴的高質(zhì)量數(shù)據(jù),。通常以“合規(guī)數(shù)據(jù)授權(quán)+收益分成”的模式，形成合力共建具備行業(yè)數(shù)據(jù)優(yōu)勢的大模型底座,。需要關(guān)注的是,，隨著大模型飛速迭代，公共數(shù)據(jù)正在被快速耗盡,。隨之而來的是私有數(shù)據(jù)合法使用的難題,。用戶生成內(nèi)容,，包括公開發(fā)表的內(nèi)容、點贊轉(zhuǎn)發(fā)等記錄數(shù)據(jù),，對于數(shù)據(jù)中保持最新信息、拓展知識范圍具有重要意義,。但需建立相對健全的機制，在遵守相關(guān)法律法規(guī),、保證隱私安全,、防止濫用的前提下,，為用戶生產(chǎn)內(nèi)容提供共享或有償交易的可能性,。目前面臨的挑戰(zhàn)如下：首先,，高質(zhì)量數(shù)據(jù)非常昂貴,。伴隨著公開數(shù)據(jù)的“枯竭”,，如何收集和使用更多的高質(zhì)量數(shù)據(jù)，并進行加工和標注,，依然是一個繞不開的選擇,。需要企業(yè)投入更多成本，并協(xié)同更多專業(yè)人士參與精細的標注工作,。其次,，大模型訓練周期較長,，且外部知識飛速更新,。如何解決“知識過期”的問題,，需要以檢索增強生成的方式，即在大模型做出回應之前,，通過檢索相關(guān)知識,，提供參考信息，為大模型回答的過程補充新知識,。第三,，由于數(shù)據(jù)量龐大且來源多樣,，數(shù)據(jù)中存在自相矛盾、不合規(guī),、偏見冒犯等情況的內(nèi)容將難以全部檢測出來并剔除。會導致訓練得到的模型底座存在輸出帶有偏見,、泄露隱私信息的可能性,。企業(yè)需重視對模型數(shù)據(jù)的審查和脫敏工作,，綜合考慮技術(shù),、政策、倫理和法律法規(guī)多方因素,，持續(xù)改善相關(guān)流程,。（作者是中國電信研究院大數(shù)據(jù)與人工智能研究所所長）企業(yè)要發(fā)展，也應重履責姚佳無數(shù)據(jù),，不AI,。AI大模型的迭代發(fā)展離不開大體量優(yōu)質(zhì)數(shù)據(jù)“喂養(yǎng)”,。由此,，“數(shù)據(jù)淘金”成為AI產(chǎn)業(yè)高質(zhì)量發(fā)展的必由之路,，優(yōu)質(zhì)數(shù)據(jù)也成為產(chǎn)業(yè)競相爭取的稀缺資源,。優(yōu)質(zhì)的數(shù)據(jù)不僅關(guān)乎發(fā)展，更關(guān)乎安全。2023年11月,，多國簽署的《布萊奇利宣言》,，其中提到AI可能會生成欺騙性內(nèi)容,，可能產(chǎn)生被有意誤用或無意控制等風險,。針對上述風險的破解之道同樣來自于數(shù)據(jù)——我們可以通過獲得“金子”一樣的好數(shù)據(jù)來訓練大模型等途徑，來進行相關(guān)破解或應對,。然而,，AI的發(fā)展并非是孤立的,。盡管在發(fā)展生成式AI市場之時,，存在過多限制數(shù)據(jù)使用，導致“市場失敗”的可能性,。但從目前看,，科技公司為了更好地訓練大模型,，侵害他人隱私和知識產(chǎn)權(quán)的風險不容忽視。舉例來看,，美國近年來的幾起訴訟,，無論是針對OpenAI,、GitHub的集體訴訟,，還是針對Stability AI，以及美國萬名作家簽署作家協(xié)會信函呼吁AI行業(yè)保護作者權(quán)益等,，這些訴訟和事件均指向利用未經(jīng)授權(quán)使用作品訓練AI產(chǎn)品或者在開源社區(qū)中可能侵害他人版權(quán)的問題，且至今仍在激烈討論,，未能形成定論,。隱私風險也同樣值得關(guān)注。比如,，科技公司未經(jīng)用戶允許,，就從手機應用程序中收集用戶的音樂偏好、圖像信息,、位置信息,、財務數(shù)據(jù)乃至私人對話等,，用以進行AI數(shù)據(jù)訓練,。這些行為都存在侵權(quán)風險。上述案例和爭議,，要求相關(guān)企業(yè)在發(fā)展的同時，嚴格遵循現(xiàn)有法律規(guī)則,。我國于2023年7月頒布《生成式人工智能服務管理暫行辦法》，其中第7條規(guī)定了生成式人工智能服務提供者的訓練數(shù)據(jù)處理活動要求,，即應使用具有合法來源的數(shù)據(jù)和基礎模型,；涉及知識產(chǎn)權(quán)的，不得侵害他人依法享有的知識產(chǎn)權(quán),；涉及個人信息的,，應當取得個人同意或者符合法律、行政法規(guī)規(guī)定的其他情形等等內(nèi)容,。企業(yè)作為AI大模型訓練的主體,，需更加注重義務和履責，充分考慮對于已有著作權(quán)人和個人信息主體的權(quán)利保障與利益平衡,。需要關(guān)注的是,，相關(guān)企業(yè)義務是全方位、體系化的，包括不局限于隱私保護義務,、個人信息保護等義務,、數(shù)據(jù)安全保障義務、數(shù)據(jù)質(zhì)量保障義務等,。（作者是中國社會科學院法學研究所教授）▲

免責聲明：本文來自網(wǎng)絡收錄或投稿,，觀點僅代表作者本人，不代表芒果財經(jīng)贊同其觀點或證實其描述,，版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處：http://lequren.com/1096945.html
溫馨提示：投資有風險，入市須謹慎,。本資訊不作為投資理財建議,。

“喂養(yǎng)”AI，大數(shù)據(jù)從哪來

相關(guān)推薦