◎記者 吳葉凡近年來,,人工智能(AI)技術(shù)推動生產(chǎn)力快速發(fā)展,但同時也因技術(shù)濫用導(dǎo)致各種問題,。為監(jiān)督AI技術(shù)使用,,如今市面上不乏各類用于檢測AI生成內(nèi)容(AIGC)的工具,如普林斯頓大學(xué)學(xué)生開發(fā)的GPTZero,、斯坦福大學(xué)研究團(tuán)隊(duì)推出的DetectGPT等。我國一些研究團(tuán)隊(duì)也陸續(xù)發(fā)布各類檢測工具,,如西湖大學(xué)文本智能實(shí)驗(yàn)室研發(fā)的Fast-DetectGPT,。人類的創(chuàng)作與AIGC之間存在哪些差異?AI檢測工具如何根據(jù)差異進(jìn)行識別,?AI檢測工具如何應(yīng)對越來越聰明的大模型?帶著這些問題,,記者采訪了有關(guān)專家。AI創(chuàng)作套路化明顯“雖然大模型在不斷發(fā)展迭代,,但到目前為止,,AIGC與人類的創(chuàng)作在用詞用語,、邏輯語法等方面依舊存在明顯區(qū)別,?!盕ast-DetectGPT研發(fā)者之一,、西湖大學(xué)文本智能實(shí)驗(yàn)室博士生鮑光勝說。在用詞用語上,,AIGC有相對固定的偏好,。“不難發(fā)現(xiàn),,一些詞語會反復(fù)在語段中出現(xiàn),?!滨U光勝舉例說,,有研究發(fā)現(xiàn),,大模型應(yīng)用于英語學(xué)術(shù)論文寫作時,“delve”(深入研究)一詞的使用頻率大大提高,,這是因?yàn)榇竽P土?xí)慣用這個詞對語句進(jìn)行潤色修改。在邏輯語法上,,AIGC慣常使用的一些語法搭配方式,,在人類創(chuàng)作中可能并不常見?!笆苣P徒5挠绊?,AIGC有相對固定的行文邏輯和表述模式,且這些模式會不斷地被重復(fù),。人類在行文上則更為靈活,,沒有固定套路?!滨U光勝說,。北京大學(xué)信息管理系師生比較了AI生成與學(xué)者撰寫的中文論文摘要。研究結(jié)果同樣顯示,,AI生成的摘要具有較高同質(zhì)性和較強(qiáng)寫作邏輯性,,并慣用歸納總結(jié)等學(xué)術(shù)話語體系;學(xué)者撰寫的摘要則具有顯著個性化差異,,使用凸顯實(shí)際含義的搭配較多,,并常用與國家政策密切相關(guān)的詞語。哈爾濱工業(yè)大學(xué)一名研究生向記者講述了他使用大模型的實(shí)際感受:“當(dāng)我給大模型提供一些材料讓它擴(kuò)寫,,它每次都用相同的套路——把給定的材料拆解開,,分為若干點(diǎn)論述??傮w來說感覺它寫得比較‘僵’,。”AIGC相對套路化的創(chuàng)作,,可能會影響人類的用語習(xí)慣,。“隨著越來越多人用AI創(chuàng)作或潤色文字,,人類會受到潛移默化的影響,,這或?qū)⒂绊懻麄€社會對語言的使用?!滨U光勝說,。三種路徑識別文本如何準(zhǔn)確識別AI生成內(nèi)容?鮑光勝介紹,,目前主要有三種技術(shù)路徑進(jìn)行檢測,,分別是模型訓(xùn)練分類器法(也被稱為監(jiān)督分類器法)、零樣本分類器法,、文本水印法,?!叭N檢測方法本質(zhì)上都是利用AI檢測AI,且各有優(yōu)劣,?!滨U光勝說。模型訓(xùn)練分類器法,,首先要收集大量人類創(chuàng)作內(nèi)容與AIGC,,然后以此為基礎(chǔ)訓(xùn)練一個能區(qū)分兩類內(nèi)容的分類器?!斑@是目前被廣泛使用的一種方法,,但缺點(diǎn)較為明顯?!滨U光勝解釋,,用于訓(xùn)練分類器的數(shù)據(jù)有限,很難覆蓋所有類型和語言的文本,。分類器在訓(xùn)練數(shù)據(jù)覆蓋的文本領(lǐng)域或語言上檢測準(zhǔn)確率較高,,反之準(zhǔn)確率則較低。而且,,模型訓(xùn)練往往需要較高成本,,數(shù)據(jù)規(guī)模越大,訓(xùn)練成本越高,。相比之下,,零樣本分類器法不需要對機(jī)器進(jìn)行訓(xùn)練,也無需收集數(shù)據(jù),。它利用已訓(xùn)練好的大模型,,抽取語言模型生成文本的特征,據(jù)此來區(qū)別人類與機(jī)器,?!八迫缓瘮?shù)是零樣本檢測法中比較常用的基準(zhǔn)之一,它可以簡單理解為一段文本在某個模型的建模分布中出現(xiàn)的概率,。概率是一種特征,,不同的概率體現(xiàn)了人類創(chuàng)作內(nèi)容與AIGC的差異?!滨U光勝進(jìn)一步解釋,,“零樣本分類通過綜合考慮多種函數(shù)特征來區(qū)分人類創(chuàng)作內(nèi)容與AIGC?!比缃?,很多大語言模型幾乎覆蓋了互聯(lián)網(wǎng)上的全部數(shù)據(jù)。因此,,相比于模型訓(xùn)練分類器,,零樣本分類器在不同領(lǐng)域、不同語言的文本上表現(xiàn)較為一致,。不過,,零樣本分類器也存在明顯缺點(diǎn)。一方面,,現(xiàn)有零樣本分類器依賴生成文本的源語言模型進(jìn)行檢測,,這意味著如果是未知源模型生成的文本,分類器就無法準(zhǔn)確檢測,。另一方面,,為提高檢測準(zhǔn)確率,零樣本分類器往往需要多次調(diào)用模型,,這增加了模型的使用成本和計(jì)算時間,。“文本水印法則是一類‘主動方法’,。區(qū)別于前兩類方法,,它不是檢測已生成的文本,而是在AI生成文本時加入水印,。人類雖然看不出這些水印,,但卻能通過技術(shù)手段檢測出來?!滨U光勝說,,文本水印法的準(zhǔn)確率較高,但缺點(diǎn)在于水印可能被人為弱化甚至移除,。此外,,對于無法訪問模型內(nèi)部結(jié)構(gòu)的大語言模型,技術(shù)人員可能無法在生成內(nèi)容時成功加入水印,。檢測技術(shù)需不斷改進(jìn)“未來,,我們要不斷更新、完善現(xiàn)有技術(shù),,力爭實(shí)現(xiàn)快速,、準(zhǔn)確、低成本檢測,,在大模型這把‘矛’越來越鋒利的同時,,讓檢測技術(shù)這面‘盾’更為堅(jiān)固?!滨U光勝說,。記者了解到,為提升檢測準(zhǔn)確性,,目前市面上的商用AI檢測軟件大多融合了多種技術(shù)手段,。國內(nèi)外研究團(tuán)隊(duì)也在進(jìn)一步完善相關(guān)技術(shù),。例如,西湖大學(xué)文本智能實(shí)驗(yàn)室團(tuán)隊(duì)在DetectGPT基礎(chǔ)上研發(fā)的Fast-DetectGPT模型,,可提升AI檢測準(zhǔn)確性,,縮短檢測時間?!癋ast-DetectGPT與其他零樣本分類器原理一致,。其中一個創(chuàng)新點(diǎn)在于,我們提出通過條件概率曲率指標(biāo)進(jìn)行檢測,?!滨U光勝說,,“與DetectGPT相比,,F(xiàn)ast-DetectGPT在速度上提升340倍,,在檢測準(zhǔn)確率上相對提升約75%,?!睂I檢測AI的前景,,有兩種截然不同的觀點(diǎn),。一種觀點(diǎn)認(rèn)為,,未來AIGC將會與人類創(chuàng)作極為相似,,以至于檢測工具無法判別,。還有一種觀點(diǎn)認(rèn)為,隨著技術(shù)發(fā)展,,檢測技術(shù)或?qū)②s超大模型技術(shù),,實(shí)現(xiàn)對AIGC的有效識別?!澳壳?,無論是AI生成的文字、圖片還是視頻,,都在技術(shù)可識別的范疇之內(nèi),。相較于文字,圖片和視頻甚至可以直接被專業(yè)人士肉眼識別,。期待未來通過大模型技術(shù)的不斷進(jìn)步,,推動檢測技術(shù)發(fā)展?!滨U光勝說,。來源:科技日報
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1117889.html
溫馨提示:投資有風(fēng)險,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。