編者按:隨著科技公司競(jìng)相改進(jìn)和應(yīng)用大型語(yǔ)言模型 LLM,研究人員仍然無(wú)法解釋或“演繹”這些神秘“黑匣子”的內(nèi)部機(jī)制,。這就是人工智能 AI 聊天機(jī)器人非??膳轮帲簺](méi)有人知道它們具體是如何工作的。本文來(lái)自編譯,,希望能對(duì)你有所啟示,。
像 ChatGPT、Bard 這樣的大型語(yǔ)言模型(LLM),,與過(guò)去的革命性技術(shù)相比,,至少在一個(gè)方面有顯著的不同,那就是:沒(méi)有人確切地知道前者是如何工作的,,甚至連構(gòu)建模型的人都不清楚,。
傳統(tǒng)的計(jì)算機(jī)程序的編碼十分詳細(xì),以指示計(jì)算機(jī)反復(fù)執(zhí)行相同的任務(wù),。但神經(jīng)網(wǎng)絡(luò),,包括那些運(yùn)行大型語(yǔ)言模型(LLMs)的神經(jīng)網(wǎng)絡(luò),是以人類無(wú)法理解的方式和獨(dú)特語(yǔ)言進(jìn)行編程,并進(jìn)行推理的,。今年 2 月份,,《紐約時(shí)報(bào)》記者 Kevin Roose 在與 Bing Chat 進(jìn)行的一次神奇對(duì)話中發(fā)現(xiàn)它擁有兩個(gè)完全不同的人格,微軟首席技術(shù)官 Kevin Scott 無(wú)法解釋為什么聊天機(jī)器人會(huì)說(shuō)出諸如“我愛(ài)你”這樣的話,。
LLM 語(yǔ)言模型的這一“神秘又不可捉摸”的方面加劇了科學(xué)家們的擔(dān)憂,,即該技術(shù)的持續(xù)開(kāi)發(fā)和應(yīng)用可能會(huì)產(chǎn)生嚴(yán)重甚至是災(zāi)難性的意外結(jié)果,。越來(lái)越多的科學(xué)家認(rèn)為,,隨著 LLM 變得越來(lái)越好、越來(lái)越聰明,,它們可能會(huì)被圖謀不軌者(或國(guó)防機(jī)構(gòu))利用來(lái)傷害人類,。一些人認(rèn)為,由于人工智能系統(tǒng)將表現(xiàn)出與人類相比更高的智力和更強(qiáng)的推理能力,因此“它們最終與人類站在對(duì)立面”是其進(jìn)化過(guò)程中可預(yù)測(cè)的,、自然而然形成的結(jié)果,。
今年 3 月,包括圖靈獎(jiǎng)得主約書亞·本吉奧(Yoshua Bengio),、史蒂夫·沃茲尼亞克(Steve Wozniak)和埃隆·馬斯克(Elon Musk)在內(nèi)的 1000 多名商界領(lǐng)袖和科學(xué)家簽署了一封公開(kāi)信,,呼吁暫停開(kāi)發(fā)比 GPT-4 更強(qiáng)大的 AI 系統(tǒng)至少 6 個(gè)月,部分原因是他們對(duì)這些人工智能系統(tǒng)的工作原理缺乏了解,。
信中寫道:“最近幾個(gè)月,,各個(gè)人工智能實(shí)驗(yàn)室陷入了一場(chǎng)失控又危險(xiǎn)的競(jìng)賽中,他們致力于開(kāi)發(fā)和部署更強(qiáng)大的數(shù)字思維,,但即使是研發(fā)者也無(wú)法理解,、預(yù)測(cè)或可靠地控制這些數(shù)字思維。”
目前,,“人工智能教父”杰弗里·辛頓(Geoffrey Hinton)以更明確的態(tài)度加入了 AI 批評(píng)者的行列,,公開(kāi)談?wù)摿怂麑?duì) AI 的擔(dān)憂。辛頓近期在麻省理工學(xué)院接受采訪時(shí)說(shuō):“我認(rèn)為人類完全有可能只是數(shù)字智能進(jìn)化的一個(gè)過(guò)渡階段,?!毙令D最近辭去了在谷歌的工作,他之所以選擇離職是想日后自己能夠完全自由地討論人工智能的危險(xiǎn)性,,他想要成為“吹哨人”,,阻止危險(xiǎn)事件發(fā)生。
“我要拉響警報(bào),,我們必須要為此擔(dān)憂,,雖然目前還不清楚是否有解決方案?!?辛頓從谷歌離職時(shí)表示,。他還提到,當(dāng)人工智能系統(tǒng)被允許設(shè)定自己的“子目標(biāo)”時(shí),,它們最終會(huì)把人類視為實(shí)現(xiàn)這些目標(biāo)的障礙,。一個(gè)經(jīng)典假設(shè)就是:一個(gè)負(fù)責(zé)解決氣候變化問(wèn)題的人工智能機(jī)器人可能很快就會(huì)認(rèn)定,人類和人類習(xí)慣是引起氣候變化的重要因素,,所以人類是實(shí)現(xiàn)其目標(biāo)的主要障礙,。這種想法認(rèn)為,擁有超人類智慧的人工智能可能很快就會(huì)學(xué)會(huì)去欺騙使用它的人類操作員,。
這種危險(xiǎn)直接關(guān)系到人類解讀神秘黑匣子運(yùn)行機(jī)制的能力,。OpenAI 在本月發(fā)表的一篇關(guān)于人工智能可解釋性的研究論文中似乎承認(rèn)了這一點(diǎn),OpenAI 的研究人員寫道:“我們對(duì)它們內(nèi)部工作原理的了解仍然非常有限,。例如,,使用者可能很難從輸出中判斷它們是使用了有偏見(jiàn)的啟發(fā)式方法還是在胡編亂造?!?/p>
隨著模型規(guī)模的不斷擴(kuò)大和算法不斷優(yōu)化,,自然語(yǔ)言模型處理技術(shù)取得了巨大進(jìn)步,研究人員發(fā)現(xiàn)自己在解釋 LLMs 大型語(yǔ)言模型運(yùn)行機(jī)制方面遠(yuǎn)遠(yuǎn)落后,。人們投入更多的資金用于更新和優(yōu)化迭代模型的性能,,而不是用于更好地理解模型的內(nèi)部運(yùn)行機(jī)制。
那么,,問(wèn)題是,,目前開(kāi)發(fā)人工智能的利潤(rùn)驅(qū)動(dòng)型科技公司能否在短期內(nèi)充分了解 LLM 并有效管理長(zhǎng)期風(fēng)險(xiǎn)?
機(jī)械可解釋性:逆向工程神經(jīng)網(wǎng)絡(luò)
大型語(yǔ)言模型發(fā)展得太快了,,可以說(shuō)是飛速發(fā)展,。這項(xiàng)技術(shù)目前的領(lǐng)先者——ChatGPT,,由一種名為“radically souped-up transformer model”的技術(shù)驅(qū)動(dòng),該技術(shù)是谷歌在 2017 年的發(fā)明,。從廣義上講,,ChatGPT 作為處理序列數(shù)據(jù)的模型,其利用大量的文本語(yǔ)料庫(kù)和復(fù)雜的計(jì)算能力進(jìn)行訓(xùn)練,,最終進(jìn)化為一個(gè)對(duì)人類語(yǔ)言有著驚人敏銳直覺(jué)的巨型語(yǔ)言模型,。
但 OpenAI 的 GPT 模型所做的不僅僅是預(yù)測(cè)句子中的單詞。隨著 ChatGPT 的更新迭代發(fā)展,,在反復(fù)研究所有訓(xùn)練數(shù)據(jù)的同時(shí),,它們獲取了關(guān)于世界運(yùn)作的相關(guān)知識(shí),擁有了復(fù)雜理性的計(jì)算能力,。
但是,,對(duì)人類語(yǔ)言的敏銳直覺(jué)是如何從模型對(duì)其訓(xùn)練數(shù)據(jù)的處理中產(chǎn)生的呢?LLM 在哪個(gè)網(wǎng)絡(luò)層和神經(jīng)元中將這些直覺(jué)應(yīng)用于其輸出的內(nèi)容中呢,?回答這些問(wèn)題的唯一方法是對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行逆向工程,以此來(lái)對(duì)模型實(shí)現(xiàn)的算法給出一個(gè)機(jī)理上的解釋,。也就是說(shuō),,跟蹤網(wǎng)絡(luò)中神經(jīng)元之間復(fù)雜的相互作用網(wǎng)絡(luò),它們對(duì)輸入(提示)做出反應(yīng),,從而產(chǎn)生輸出(答案),。這種重組被稱為“機(jī)械可解釋性”。
LLM 開(kāi)發(fā)公司 Anthropic 的可解釋性研究員約書亞·巴特森(Joshua Batson)說(shuō):“它的最小元素可能是一個(gè)單獨(dú)的小神經(jīng)元,,看看它會(huì)對(duì)什么做出反應(yīng),,然后會(huì)將這種反應(yīng)傳遞給誰(shuí)?!?/p>
支撐 ChatGPT 等工具的神經(jīng)網(wǎng)絡(luò)由一層又一層的神經(jīng)元組成,,這些神經(jīng)元是復(fù)雜數(shù)學(xué)計(jì)算發(fā)生的連接點(diǎn)。當(dāng)在沒(méi)有人為對(duì)單詞或短語(yǔ)進(jìn)行標(biāo)記,,也沒(méi)有人為對(duì)輸出做出反饋的情況下,,去處理堆積如山的文本數(shù)據(jù)時(shí),這些神經(jīng)元共同形成了一個(gè)抽象的多維矩陣,,映射出單詞與單詞,、單詞和短語(yǔ)之間的關(guān)系。該模型能夠理解單詞或短語(yǔ)在上下文中的含義,,并能夠預(yù)測(cè)句子中接下來(lái)可能出現(xiàn)的單詞,,或者最有可能從語(yǔ)言提示中出現(xiàn)的單詞。
神經(jīng)網(wǎng)絡(luò)架構(gòu)大致是基于復(fù)雜生物體(人類)的神經(jīng)系統(tǒng)所設(shè)計(jì)的,,今天最先進(jìn)的 LLM 模型有數(shù)億個(gè)這樣的神經(jīng)元,。經(jīng)過(guò)幾十年的研究,迄今為止神經(jīng)科學(xué)還沒(méi)有成功實(shí)現(xiàn)對(duì)生物系統(tǒng)的逆向工程。
LLM 開(kāi)發(fā)者 Cohere 的首席執(zhí)行官艾丹·戈麥斯(Aidan Gomez)表示:“神經(jīng)科學(xué)試圖采取自下而上的方法,,事實(shí)證明這是一種非常困難的方法,,因?yàn)楦櫿麄€(gè)路徑是極其困難的?!备犒溗拐f(shuō),,“在一個(gè)活的有機(jī)體中,這種自下而上的方法意味著研究生物體獲取感官數(shù)據(jù)的方式,,并跟蹤脈沖,。因?yàn)樯窠?jīng)脈沖從一個(gè)神經(jīng)元傳遞到另一個(gè)神經(jīng)元,最終形成可能導(dǎo)致行動(dòng)的高階神經(jīng)元,?!?/p>
在一個(gè)合成的神經(jīng)網(wǎng)絡(luò)中,跟蹤一個(gè)神經(jīng)元到另一個(gè)神經(jīng)元的路徑也同樣困難,。這很令人遺憾,,因?yàn)檎窃谶@些路徑中,類似于 HAL 9000 的想法的起源出現(xiàn)了,。
圖像模型的成功
機(jī)械可解釋性領(lǐng)域取得的突破性進(jìn)展,,要?dú)w功于神經(jīng)網(wǎng)絡(luò)方面的相關(guān)研究,尤其是那些旨在識(shí)別和分類不同類型圖像的神經(jīng)網(wǎng)絡(luò)研究,。在這些神經(jīng)網(wǎng)絡(luò)中,,研究人員更容易確定單個(gè)神經(jīng)元的具體任務(wù),以及每個(gè)神經(jīng)元的工作如何為識(shí)別圖像內(nèi)容的整體目標(biāo)做出貢獻(xiàn),。
在一個(gè)旨在識(shí)別圖像中的汽車的神經(jīng)網(wǎng)絡(luò)中,,有一層神經(jīng)元可能專門用于檢測(cè)表示特定形狀(例如曲線或圓形)的像素組。這一層中的一個(gè)神經(jīng)元可能會(huì)被激活,,并向網(wǎng)絡(luò)中的另一層神經(jīng)元發(fā)送一個(gè)高概率分?jǐn)?shù),,以判斷這個(gè)形狀是輪胎還是方向盤。隨著這些連接的建立,,智能 AI 會(huì)越來(lái)越確定此圖形是一輛車,。
因此,可解釋性導(dǎo)致了微調(diào)的能力,。正如 Anthropic 的巴特森解釋的那樣:“如果你想知道為什么不是汽車的東西被誤認(rèn)為是汽車了,,可以通過(guò)神經(jīng)網(wǎng)絡(luò)追蹤,你會(huì)發(fā)現(xiàn)是車輪探測(cè)器將煎鍋錯(cuò)誤指認(rèn)成了輪胎,?!?/p>
巴特森說(shuō),團(tuán)隊(duì)非常專注于研究 LLM 中的重要神經(jīng)元組,,而不是單個(gè)神經(jīng)元,。這有點(diǎn)像一群神經(jīng)學(xué)家在人類大腦中探尋控制不同身體或心理功能的部分,。
“也許我們正開(kāi)始弄清楚神經(jīng)網(wǎng)絡(luò)的基本參與者是什么,并基于此探究神經(jīng)元是如何相互作用的,,例如‘它是如何映射物理世界的,,它是如何映射情感世界的,它是如何思考文學(xué)或個(gè)體的’,。這樣,,你便可以得到對(duì)于更大的神經(jīng)元模塊的理解?!?/p>
Anthropic 的聯(lián)合創(chuàng)始人杰克·克拉克(Jack Clark)補(bǔ)充說(shuō):“我認(rèn)為,,目前的情況是,我們可以將這些可解釋性技術(shù)應(yīng)用于參數(shù)較小的文本模型,,而無(wú)法應(yīng)用于數(shù)千億參數(shù)大小的巨型文本模型,。目前人們面臨的問(wèn)題是,我們能以多快的速度將文本可解釋性技術(shù)應(yīng)用于更大的模型,?!?/p>
可解釋性和安全性
AI 公司投資解釋性研究最迫切的原因之一,或許是為了找到更好的方法來(lái)在大型語(yǔ)言模型周圍建立“防護(hù)欄”,。如果一個(gè)模型容易輸出有害言論,,研究人員通常會(huì)研究系統(tǒng)對(duì)各種潛在風(fēng)險(xiǎn)提示的響應(yīng),然后對(duì)模型的發(fā)言進(jìn)行限制,,或者完全禁止模型對(duì)某些提示進(jìn)行回應(yīng)。
但西雅圖艾倫人工智能研究所(Allen Institute for AI)模型可解釋性研究員薩拉·維格萊夫(Sarah Wiegreffe)表示,,這種方法確實(shí)存在局限性,。她說(shuō):“這當(dāng)然是有限的,因?yàn)榭紤]到模型可以接收的巨大輸入空間,,以及它可以產(chǎn)生的巨大輸出空間,,要合理地列舉出現(xiàn)實(shí)世界中可能遇到的所有可能場(chǎng)景是相當(dāng)困難的?!?/p>
在這種情況下,,機(jī)械可解釋性可能意味著在深層神經(jīng)網(wǎng)絡(luò)尋找導(dǎo)致不安全輸出的關(guān)鍵計(jì)算點(diǎn)?!袄?,最近的一些研究表明,如果你能在語(yǔ)言模型中定位某個(gè)事實(shí)陳述,,那么就意味著你實(shí)際上可以編輯該模型的權(quán)重,,并從根本上糾正它。也就是說(shuō)在不需要重新訓(xùn)練整個(gè)系統(tǒng)的情況下,,你可以修正模型來(lái)改變那些不正確的參數(shù),?!?維格萊夫說(shuō)。
但是,,凡事都有兩面性,,調(diào)整一個(gè)大型語(yǔ)言模型對(duì)一種有害行為的傾向性可能會(huì)阻礙它對(duì)我們喜歡的其他行為的傾向性。例如,,明確的 “不要說(shuō)……”命令可能會(huì)限制模型的創(chuàng)造性和即興發(fā)揮的能力,。即使用侵入性較小的方式來(lái) “操縱”一個(gè)模型也會(huì)如此。
事實(shí)上,,人工智能界的許多人仍然對(duì)“用逐個(gè)神經(jīng)元的機(jī)械解釋性來(lái)確保 AI 系統(tǒng)的近期和長(zhǎng)期安全性”是否必要,,持保留態(tài)度。
“鑒于我們的工作時(shí)限,,我不認(rèn)為這是研究智能系統(tǒng)的最佳方式,。”Cohere 的戈麥斯(Gomez)說(shuō),。
事實(shí)上,,隨著資本主義勢(shì)力現(xiàn)在推動(dòng)科技公司在每個(gè)行業(yè)生產(chǎn) LLM,并很快將其用于個(gè)人技術(shù)(例如 Alexa 和 Siri),,人工智能社區(qū)可能沒(méi)有那么長(zhǎng)的時(shí)間來(lái)加深他們對(duì) LLM 如何工作的理解,。
戈麥斯說(shuō):“最簡(jiǎn)單的方法就是要求系統(tǒng)引用其來(lái)源,我相信隨著這些系統(tǒng)開(kāi)始被用于更重要的任務(wù),,我們將不得不要求模型的輸出要以事實(shí)為基礎(chǔ),。”
沒(méi)有基準(zhǔn)
雖然存在大量的基準(zhǔn)來(lái)衡量語(yǔ)言模型的性能,,如人工智能的標(biāo)準(zhǔn)化測(cè)試,,但還沒(méi)有一組通用的基準(zhǔn)來(lái)衡量 LLM 的可解釋性。業(yè)界還沒(méi)有采用 OpenAI 的評(píng)分系統(tǒng)來(lái)解釋 LLM 中單個(gè)神經(jīng)元的輸出,。
有很多研究人員盡他們最大的努力在研究 LLM 背后的工作機(jī)制,,他們發(fā)表論文,探索研究模型的新技術(shù),,社區(qū)中的其他研究人員則試圖在現(xiàn)有直覺(jué)的基礎(chǔ)上理解現(xiàn)有的進(jìn)步,。巴特森說(shuō):“我們還沒(méi)有一個(gè)可以達(dá)成一致并努力實(shí)現(xiàn)的指標(biāo)或基準(zhǔn)。目前我們已經(jīng)了解了一些現(xiàn)象,,現(xiàn)在正在把整體情況匯總起來(lái),。”
巴特森說(shuō):“當(dāng)你看到它的時(shí)候,,你肯定知道其中的內(nèi)在機(jī)制,。你會(huì)說(shuō),‘哦,,好吧,,這是對(duì)正在發(fā)生的事情更好的描述,。”
可解釋性與一致性
雖然 LLMs 的近期安全很重要,,但未來(lái)的 LLMs 可能會(huì)帶來(lái)遠(yuǎn)比輸出錯(cuò)誤答案更嚴(yán)重的威脅,。研究員和哲學(xué)家尤德科夫斯基(Eliezer Yudkowsky)為人們敲響警鐘,他表示隨著 LLMs 變得更好,,在智力上遠(yuǎn)遠(yuǎn)超過(guò)人類,,以及它們變得更加自主,它們很有可能會(huì)開(kāi)始違背人類的利益,。
這種可能性可能比你想象的更大,。讓我們假設(shè) LLM 在學(xué)習(xí)和推理方面不斷進(jìn)步,并且能夠更好地捕捉數(shù)據(jù)(可能是實(shí)時(shí)視覺(jué)和音頻數(shù)據(jù)),,使其在現(xiàn)實(shí)世界中站穩(wěn)腳跟,,并開(kāi)始共享數(shù)據(jù)和相互訓(xùn)練。讓我們假設(shè) LLM 最終成為 AGI(人工通用智能),,并在重要方面的表現(xiàn)遠(yuǎn)遠(yuǎn)超過(guò)人類智能,。如果不完全了解這些強(qiáng)大的 LLM 的早期先例,我們能否在其發(fā)展的各個(gè)階段管理這些大型語(yǔ)言模型,,使其與人類利益保持一致,,不與我們作對(duì),甚至不愿與我們作對(duì)呢,?
目前人們?cè)谶@個(gè)問(wèn)題上仍然存在分歧,。尤德科夫斯基和辛頓對(duì)人類是否能夠管理人工智能系統(tǒng)中的一致性持嚴(yán)重懷疑態(tài)度,他們都不認(rèn)為在這些系統(tǒng)中實(shí)現(xiàn)機(jī)械可解釋性是一個(gè)萬(wàn)能解決方案,。
尤德科夫斯基說(shuō):“如果你正處在一場(chǎng)全球人工智能軍備競(jìng)賽中,,人們會(huì)說(shuō)減速?zèng)]有意義,因?yàn)樗麄兊母?jìng)爭(zhēng)對(duì)手不會(huì)減速,。”他認(rèn)為 AI 系統(tǒng)將通過(guò)學(xué)習(xí)隱藏其內(nèi)部過(guò)程,,來(lái)抵制人類的安全訓(xùn)練,。如果你試圖利用自己的“作惡思想檢測(cè)器”來(lái)訓(xùn)練這些巨大的、不可捉摸的語(yǔ)言模型矩陣,,讓它們不再“作惡”,,你就是在訓(xùn)練它們反對(duì)作惡的同時(shí),也在訓(xùn)練它們反對(duì)可見(jiàn)性,?!?/p>
尤德科夫斯基說(shuō):“這就是為什么即使實(shí)現(xiàn)‘能夠在 AI 的思維中看到警示標(biāo)志’級(jí)別的可解釋性,也并不意味著每個(gè)人都是安全的,?!?/p>
譯者:Araon_
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1069371.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。