A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

“喂養(yǎng)”AI,大數(shù)據(jù)從哪來

“喂養(yǎng)”AI,,大數(shù)據(jù)從哪來李志起 楊明川 姚 佳編者的話:人工智能AI)大模型的訓練,、進化都離不開數(shù)據(jù)。外媒近日報道稱,,科技公司利用語音識別工具轉(zhuǎn)錄視頻網(wǎng)站上的視頻,,形成對話文本數(shù)據(jù)來訓練AI,也有公司用社交媒體上具有版權(quán)爭議和隱私權(quán)爭議的數(shù)據(jù)來訓練AI——這些“捷徑”是否合法,?合規(guī),、高質(zhì)量的AI訓練數(shù)據(jù)應該從哪里來?普通人的數(shù)據(jù)安全如何保障,?合規(guī)性,、高質(zhì)量與多樣性的平衡李志起隨著AI技術(shù)的不斷進步,大模型訓練對高質(zhì)量數(shù)據(jù)的需求日益凸顯,。如何確保訓練數(shù)據(jù)的合規(guī)與高質(zhì)量并重,?三個原則應遵守。第一,,堅守合規(guī)底線,,明確數(shù)據(jù)來源。任何數(shù)據(jù)的采集和使用都必須遵守法律法規(guī),,尊重原創(chuàng)精神和知識產(chǎn)權(quán),。合規(guī)的數(shù)據(jù)來源不僅是對創(chuàng)作者權(quán)益的保障,也是AI技術(shù)健康發(fā)展的基石,。合規(guī)數(shù)據(jù)首先應該從公開數(shù)據(jù)集中獲取,這些數(shù)據(jù)集通常由學術(shù)機構(gòu),、政府組織或大型企業(yè)公開發(fā)布,,如ImageNet等圖像數(shù)據(jù)集就為圖像識別技術(shù)的發(fā)展提供了有力支持。其次,用戶在社交平臺上產(chǎn)生的內(nèi)容,,如文本,、圖片等,也是寶貴的訓練資源,,但在使用時需確保獲得必要的授權(quán),。此外,企業(yè)還可以通過與合作伙伴共享數(shù)據(jù),、購買專業(yè)數(shù)據(jù)服務等方式獲取訓練數(shù)據(jù),。這些途徑雖然可能需要更多成本投入,但能有效規(guī)避法律風險,,同時也更有可能獲得高質(zhì)量的數(shù)據(jù)資源,。第二,合法獲取信息,,保護知識產(chǎn)權(quán),。企業(yè)首先應建立一套完善的信息獲取流程,通過定期的培訓,,提高員工對法律法規(guī)的認知和遵守意識,,以確保任何信息的采集都應在明確的目的和合法的框架內(nèi)進行,避免盲目和過度的數(shù)據(jù)采集,。其次,,要盡其可能確保隱私保護與數(shù)據(jù)安全,涉及個人隱私的數(shù)據(jù),,如用戶的身份信息,、聯(lián)系方式等,都需要進行嚴格的匿名化和加密處理,。第三,,在使用他人的知識產(chǎn)權(quán)時,如專利,、商標,、著作權(quán)等,企業(yè)應嚴格遵守相關(guān)法律法規(guī),,確保獲得權(quán)利人的明確許可,,并按約定支付相應的使用費用。第三,,注重數(shù)據(jù)質(zhì)量,,提升AI性能。數(shù)據(jù)質(zhì)量是訓練AI模型的關(guān)鍵因素之一,。高質(zhì)量的數(shù)據(jù)不僅可以提高模型的準確性,,還能增強模型的泛化能力,,使其更好地適應各種場景。此外,,AI企業(yè)必須注意加強數(shù)據(jù)標注的準確性,,以免影響模型的訓練效果。標注錯誤的數(shù)據(jù)會導致模型學習到錯誤的信息,,從而降低其性能,。數(shù)據(jù)的多樣性和代表性也不應被忽視??梢酝ㄟ^收集不同來源,、不同類型的數(shù)據(jù)來增加數(shù)據(jù)的多樣性,同時還可以通過數(shù)據(jù)增強技術(shù)來擴充數(shù)據(jù)集,,提高模型的泛化能力,。與此同時,數(shù)據(jù)的時效性和更新頻率也顯得尤為重要,。應定期更新數(shù)據(jù)集,,確保模型的時效性和準確性,適應新的挑戰(zhàn)和需求,。(作者是北京市政協(xié)經(jīng)濟委員會副主任,,振興國際智庫理事長)三種方式獲取訓練數(shù)據(jù)楊明川常規(guī)的AI訓練數(shù)據(jù)可以來自組織生產(chǎn)環(huán)境中的數(shù)據(jù)積累、開源數(shù)據(jù)集和人工標注數(shù)據(jù),。對于百億,、千億參數(shù)規(guī)模的大模型而言,訓練數(shù)據(jù)來源廣泛且規(guī)模龐大,,大模型廠商往往不會詳細透露其訓練數(shù)據(jù)來源或公開其訓練數(shù)據(jù)的詳細組成,。對于企業(yè)而言,合法獲得訓練數(shù)據(jù)授權(quán)的方式主要有三種,。一是收集開源數(shù)據(jù)集,。通常由學術(shù)機構(gòu)、政府組織或企業(yè)公開發(fā)布,,涵蓋各種類型,,如圖像、文本,、音頻,、視頻等??稍诖嘶A上進行二次處理,、清洗加工和人工抽檢標注,,形成高質(zhì)量的訓練數(shù)據(jù)集,;二是充分挖掘自身場景中積累下來的數(shù)據(jù),。以筆者供職的企業(yè)為例,公司積累了大量專業(yè)運維案例,、專業(yè)報告,、日志和專業(yè)問題回復等數(shù)據(jù),,可以在保證脫敏和遵守數(shù)據(jù)許可協(xié)議的前提下,,用于大模型的繼續(xù)訓練和精調(diào),;三是來自行業(yè)合作伙伴的高質(zhì)量數(shù)據(jù),。通常以“合規(guī)數(shù)據(jù)授權(quán)+收益分成”的模式,形成合力共建具備行業(yè)數(shù)據(jù)優(yōu)勢的大模型底座,。需要關(guān)注的是,,隨著大模型飛速迭代,公共數(shù)據(jù)正在被快速耗盡,。隨之而來的是私有數(shù)據(jù)合法使用的難題,。用戶生成內(nèi)容,,包括公開發(fā)表的內(nèi)容、點贊轉(zhuǎn)發(fā)等記錄數(shù)據(jù),,對于數(shù)據(jù)中保持最新信息、拓展知識范圍具有重要意義,。但需建立相對健全的機制,在遵守相關(guān)法律法規(guī),、保證隱私安全,、防止濫用的前提下,,為用戶生產(chǎn)內(nèi)容提供共享或有償交易的可能性,。目前面臨的挑戰(zhàn)如下:首先,,高質(zhì)量數(shù)據(jù)非常昂貴,。伴隨著公開數(shù)據(jù)的“枯竭”,,如何收集和使用更多的高質(zhì)量數(shù)據(jù),并進行加工和標注,,依然是一個繞不開的選擇,。需要企業(yè)投入更多成本,并協(xié)同更多專業(yè)人士參與精細的標注工作,。其次,,大模型訓練周期較長,,且外部知識飛速更新,。如何解決“知識過期”的問題,,需要以檢索增強生成的方式,即在大模型做出回應之前,,通過檢索相關(guān)知識,,提供參考信息,為大模型回答的過程補充新知識,。第三,,由于數(shù)據(jù)量龐大且來源多樣,,數(shù)據(jù)中存在自相矛盾、不合規(guī),、偏見冒犯等情況的內(nèi)容將難以全部檢測出來并剔除。會導致訓練得到的模型底座存在輸出帶有偏見,、泄露隱私信息的可能性,。企業(yè)需重視對模型數(shù)據(jù)的審查和脫敏工作,,綜合考慮技術(shù),、政策、倫理和法律法規(guī)多方因素,,持續(xù)改善相關(guān)流程,。(作者是中國電信研究院大數(shù)據(jù)與人工智能研究所所長)企業(yè)要發(fā)展,也應重履責姚 佳無數(shù)據(jù),,不AI,。AI大模型的迭代發(fā)展離不開大體量優(yōu)質(zhì)數(shù)據(jù)“喂養(yǎng)”,。由此,,“數(shù)據(jù)淘金”成為AI產(chǎn)業(yè)高質(zhì)量發(fā)展的必由之路,,優(yōu)質(zhì)數(shù)據(jù)也成為產(chǎn)業(yè)競相爭取的稀缺資源,。優(yōu)質(zhì)的數(shù)據(jù)不僅關(guān)乎發(fā)展,更關(guān)乎安全。2023年11月,,多國簽署的《布萊奇利宣言》,,其中提到AI可能會生成欺騙性內(nèi)容,,可能產(chǎn)生被有意誤用或無意控制等風險,。針對上述風險的破解之道同樣來自于數(shù)據(jù)——我們可以通過獲得“金子”一樣的好數(shù)據(jù)來訓練大模型等途徑,來進行相關(guān)破解或應對,。然而,,AI的發(fā)展并非是孤立的,。盡管在發(fā)展生成式AI市場之時,,存在過多限制數(shù)據(jù)使用,導致“市場失敗”的可能性,。但從目前看,,科技公司為了更好地訓練大模型,,侵害他人隱私和知識產(chǎn)權(quán)的風險不容忽視。舉例來看,,美國近年來的幾起訴訟,,無論是針對OpenAI,、GitHub的集體訴訟,,還是針對Stability AI,以及美國萬名作家簽署作家協(xié)會信函呼吁AI行業(yè)保護作者權(quán)益等,,這些訴訟和事件均指向利用未經(jīng)授權(quán)使用作品訓練AI產(chǎn)品或者在開源社區(qū)中可能侵害他人版權(quán)的問題,且至今仍在激烈討論,,未能形成定論,。隱私風險也同樣值得關(guān)注。比如,,科技公司未經(jīng)用戶允許,,就從手機應用程序中收集用戶的音樂偏好、圖像信息,、位置信息,、財務數(shù)據(jù)乃至私人對話等,,用以進行AI數(shù)據(jù)訓練,。這些行為都存在侵權(quán)風險。上述案例和爭議,,要求相關(guān)企業(yè)在發(fā)展的同時,嚴格遵循現(xiàn)有法律規(guī)則,。我國于2023年7月頒布《生成式人工智能服務管理暫行辦法》,其中第7條規(guī)定了生成式人工智能服務提供者的訓練數(shù)據(jù)處理活動要求,,即應使用具有合法來源的數(shù)據(jù)和基礎模型,;涉及知識產(chǎn)權(quán)的,不得侵害他人依法享有的知識產(chǎn)權(quán),;涉及個人信息的,,應當取得個人同意或者符合法律、行政法規(guī)規(guī)定的其他情形等等內(nèi)容,。企業(yè)作為AI大模型訓練的主體,,需更加注重義務和履責,充分考慮對于已有著作權(quán)人和個人信息主體的權(quán)利保障與利益平衡,。需要關(guān)注的是,,相關(guān)企業(yè)義務是全方位、體系化的,包括不局限于隱私保護義務,、個人信息保護等義務,、數(shù)據(jù)安全保障義務、數(shù)據(jù)質(zhì)量保障義務等,。(作者是中國社會科學院法學研究所教授)▲

免責聲明:本文來自網(wǎng)絡收錄或投稿,,觀點僅代表作者本人,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1096945.html
溫馨提示:投資有風險,入市須謹慎,。本資訊不作為投資理財建議,。

(0)
環(huán)球時報的頭像環(huán)球時報
上一篇 2024年4月13日 上午9:02
下一篇 2024年4月13日 上午9:58
198搶自鏈數(shù)字人

相關(guān)推薦