編者按:隨著科技公司競相改進和應用大型語言模型 LLM,研究人員仍然無法解釋或“演繹”這些神秘“黑匣子”的內(nèi)部機制,。這就是人工智能 AI 聊天機器人非??膳轮帲簺]有人知道它們具體是如何工作的。本文來自編譯,,希望能對你有所啟示,。
像 ChatGPT、Bard 這樣的大型語言模型(LLM),,與過去的革命性技術相比,,至少在一個方面有顯著的不同,那就是:沒有人確切地知道前者是如何工作的,,甚至連構(gòu)建模型的人都不清楚,。
傳統(tǒng)的計算機程序的編碼十分詳細,以指示計算機反復執(zhí)行相同的任務,。但神經(jīng)網(wǎng)絡,,包括那些運行大型語言模型(LLMs)的神經(jīng)網(wǎng)絡,是以人類無法理解的方式和獨特語言進行編程,,并進行推理的,。今年 2 月份,《紐約時報》記者 Kevin Roose 在與 Bing Chat 進行的一次神奇對話中發(fā)現(xiàn)它擁有兩個完全不同的人格,,微軟首席技術官 Kevin Scott 無法解釋為什么聊天機器人會說出諸如“我愛你”這樣的話,。
LLM 語言模型的這一“神秘又不可捉摸”的方面加劇了科學家們的擔憂,即該技術的持續(xù)開發(fā)和應用可能會產(chǎn)生嚴重甚至是災難性的意外結(jié)果,。越來越多的科學家認為,,隨著 LLM 變得越來越好、越來越聰明,,它們可能會被圖謀不軌者(或國防機構(gòu))利用來傷害人類,。一些人認為,由于人工智能系統(tǒng)將表現(xiàn)出與人類相比更高的智力和更強的推理能力,,因此“它們最終與人類站在對立面”是其進化過程中可預測的、自然而然形成的結(jié)果,。
今年 3 月,,包括圖靈獎得主約書亞·本吉奧(Yoshua Bengio)、史蒂夫·沃茲尼亞克(Steve Wozniak)和埃隆·馬斯克(Elon Musk)在內(nèi)的 1000 多名商界領袖和科學家簽署了一封公開信,,呼吁暫停開發(fā)比 GPT-4 更強大的 AI 系統(tǒng)至少 6 個月,,部分原因是他們對這些人工智能系統(tǒng)的工作原理缺乏了解。
信中寫道:“最近幾個月,,各個人工智能實驗室陷入了一場失控又危險的競賽中,,他們致力于開發(fā)和部署更強大的數(shù)字思維,但即使是研發(fā)者也無法理解,、預測或可靠地控制這些數(shù)字思維,。”
目前,,“人工智能教父”杰弗里·辛頓(Geoffrey Hinton)以更明確的態(tài)度加入了 AI 批評者的行列,,公開談論了他對 AI 的擔憂。辛頓近期在麻省理工學院接受采訪時說:“我認為人類完全有可能只是數(shù)字智能進化的一個過渡階段,?!毙令D最近辭去了在谷歌的工作,他之所以選擇離職是想日后自己能夠完全自由地討論人工智能的危險性,,他想要成為“吹哨人”,,阻止危險事件發(fā)生。
“我要拉響警報,,我們必須要為此擔憂,,雖然目前還不清楚是否有解決方案?!?辛頓從谷歌離職時表示。他還提到,,當人工智能系統(tǒng)被允許設定自己的“子目標”時,,它們最終會把人類視為實現(xiàn)這些目標的障礙。一個經(jīng)典假設就是:一個負責解決氣候變化問題的人工智能機器人可能很快就會認定,,人類和人類習慣是引起氣候變化的重要因素,,所以人類是實現(xiàn)其目標的主要障礙,。這種想法認為,擁有超人類智慧的人工智能可能很快就會學會去欺騙使用它的人類操作員,。
這種危險直接關系到人類解讀神秘黑匣子運行機制的能力,。OpenAI 在本月發(fā)表的一篇關于人工智能可解釋性的研究論文中似乎承認了這一點,OpenAI 的研究人員寫道:“我們對它們內(nèi)部工作原理的了解仍然非常有限,。例如,,使用者可能很難從輸出中判斷它們是使用了有偏見的啟發(fā)式方法還是在胡編亂造?!?/p>
隨著模型規(guī)模的不斷擴大和算法不斷優(yōu)化,,自然語言模型處理技術取得了巨大進步,研究人員發(fā)現(xiàn)自己在解釋 LLMs 大型語言模型運行機制方面遠遠落后,。人們投入更多的資金用于更新和優(yōu)化迭代模型的性能,,而不是用于更好地理解模型的內(nèi)部運行機制。
那么,,問題是,,目前開發(fā)人工智能的利潤驅(qū)動型科技公司能否在短期內(nèi)充分了解 LLM 并有效管理長期風險?
機械可解釋性:逆向工程神經(jīng)網(wǎng)絡
大型語言模型發(fā)展得太快了,,可以說是飛速發(fā)展,。這項技術目前的領先者——ChatGPT,由一種名為“radically souped-up transformer model”的技術驅(qū)動,,該技術是谷歌在 2017 年的發(fā)明,。從廣義上講,ChatGPT 作為處理序列數(shù)據(jù)的模型,,其利用大量的文本語料庫和復雜的計算能力進行訓練,,最終進化為一個對人類語言有著驚人敏銳直覺的巨型語言模型。
但 OpenAI 的 GPT 模型所做的不僅僅是預測句子中的單詞,。隨著 ChatGPT 的更新迭代發(fā)展,,在反復研究所有訓練數(shù)據(jù)的同時,它們獲取了關于世界運作的相關知識,,擁有了復雜理性的計算能力,。
但是,對人類語言的敏銳直覺是如何從模型對其訓練數(shù)據(jù)的處理中產(chǎn)生的呢,?LLM 在哪個網(wǎng)絡層和神經(jīng)元中將這些直覺應用于其輸出的內(nèi)容中呢,?回答這些問題的唯一方法是對神經(jīng)網(wǎng)絡進行逆向工程,以此來對模型實現(xiàn)的算法給出一個機理上的解釋,。也就是說,,跟蹤網(wǎng)絡中神經(jīng)元之間復雜的相互作用網(wǎng)絡,它們對輸入(提示)做出反應,從而產(chǎn)生輸出(答案),。這種重組被稱為“機械可解釋性”,。
LLM 開發(fā)公司 Anthropic 的可解釋性研究員約書亞·巴特森(Joshua Batson)說:“它的最小元素可能是一個單獨的小神經(jīng)元,看看它會對什么做出反應,,然后會將這種反應傳遞給誰,。”
支撐 ChatGPT 等工具的神經(jīng)網(wǎng)絡由一層又一層的神經(jīng)元組成,,這些神經(jīng)元是復雜數(shù)學計算發(fā)生的連接點,。當在沒有人為對單詞或短語進行標記,也沒有人為對輸出做出反饋的情況下,,去處理堆積如山的文本數(shù)據(jù)時,,這些神經(jīng)元共同形成了一個抽象的多維矩陣,映射出單詞與單詞,、單詞和短語之間的關系,。該模型能夠理解單詞或短語在上下文中的含義,并能夠預測句子中接下來可能出現(xiàn)的單詞,,或者最有可能從語言提示中出現(xiàn)的單詞,。
神經(jīng)網(wǎng)絡架構(gòu)大致是基于復雜生物體(人類)的神經(jīng)系統(tǒng)所設計的,今天最先進的 LLM 模型有數(shù)億個這樣的神經(jīng)元,。經(jīng)過幾十年的研究,,迄今為止神經(jīng)科學還沒有成功實現(xiàn)對生物系統(tǒng)的逆向工程。
LLM 開發(fā)者 Cohere 的首席執(zhí)行官艾丹·戈麥斯(Aidan Gomez)表示:“神經(jīng)科學試圖采取自下而上的方法,,事實證明這是一種非常困難的方法,,因為跟蹤整個路徑是極其困難的?!备犒溗拐f,,“在一個活的有機體中,這種自下而上的方法意味著研究生物體獲取感官數(shù)據(jù)的方式,,并跟蹤脈沖,。因為神經(jīng)脈沖從一個神經(jīng)元傳遞到另一個神經(jīng)元,最終形成可能導致行動的高階神經(jīng)元,?!?/p>
在一個合成的神經(jīng)網(wǎng)絡中,跟蹤一個神經(jīng)元到另一個神經(jīng)元的路徑也同樣困難,。這很令人遺憾,,因為正是在這些路徑中,類似于 HAL 9000 的想法的起源出現(xiàn)了,。
圖像模型的成功
機械可解釋性領域取得的突破性進展,,要歸功于神經(jīng)網(wǎng)絡方面的相關研究,,尤其是那些旨在識別和分類不同類型圖像的神經(jīng)網(wǎng)絡研究。在這些神經(jīng)網(wǎng)絡中,,研究人員更容易確定單個神經(jīng)元的具體任務,以及每個神經(jīng)元的工作如何為識別圖像內(nèi)容的整體目標做出貢獻,。
在一個旨在識別圖像中的汽車的神經(jīng)網(wǎng)絡中,,有一層神經(jīng)元可能專門用于檢測表示特定形狀(例如曲線或圓形)的像素組。這一層中的一個神經(jīng)元可能會被激活,,并向網(wǎng)絡中的另一層神經(jīng)元發(fā)送一個高概率分數(shù),,以判斷這個形狀是輪胎還是方向盤。隨著這些連接的建立,,智能 AI 會越來越確定此圖形是一輛車,。
因此,可解釋性導致了微調(diào)的能力,。正如 Anthropic 的巴特森解釋的那樣:“如果你想知道為什么不是汽車的東西被誤認為是汽車了,,可以通過神經(jīng)網(wǎng)絡追蹤,你會發(fā)現(xiàn)是車輪探測器將煎鍋錯誤指認成了輪胎,?!?/p>
巴特森說,團隊非常專注于研究 LLM 中的重要神經(jīng)元組,,而不是單個神經(jīng)元,。這有點像一群神經(jīng)學家在人類大腦中探尋控制不同身體或心理功能的部分。
“也許我們正開始弄清楚神經(jīng)網(wǎng)絡的基本參與者是什么,,并基于此探究神經(jīng)元是如何相互作用的,,例如‘它是如何映射物理世界的,它是如何映射情感世界的,,它是如何思考文學或個體的’,。這樣,你便可以得到對于更大的神經(jīng)元模塊的理解,?!?/p>
Anthropic 的聯(lián)合創(chuàng)始人杰克·克拉克(Jack Clark)補充說:“我認為,目前的情況是,,我們可以將這些可解釋性技術應用于參數(shù)較小的文本模型,,而無法應用于數(shù)千億參數(shù)大小的巨型文本模型。目前人們面臨的問題是,,我們能以多快的速度將文本可解釋性技術應用于更大的模型,。”
可解釋性和安全性
AI 公司投資解釋性研究最迫切的原因之一,,或許是為了找到更好的方法來在大型語言模型周圍建立“防護欄”,。如果一個模型容易輸出有害言論,研究人員通常會研究系統(tǒng)對各種潛在風險提示的響應,然后對模型的發(fā)言進行限制,,或者完全禁止模型對某些提示進行回應,。
但西雅圖艾倫人工智能研究所(Allen Institute for AI)模型可解釋性研究員薩拉·維格萊夫(Sarah Wiegreffe)表示,這種方法確實存在局限性,。她說:“這當然是有限的,,因為考慮到模型可以接收的巨大輸入空間,以及它可以產(chǎn)生的巨大輸出空間,,要合理地列舉出現(xiàn)實世界中可能遇到的所有可能場景是相當困難的,。”
在這種情況下,,機械可解釋性可能意味著在深層神經(jīng)網(wǎng)絡尋找導致不安全輸出的關鍵計算點,。“例如,,最近的一些研究表明,,如果你能在語言模型中定位某個事實陳述,那么就意味著你實際上可以編輯該模型的權重,,并從根本上糾正它,。也就是說在不需要重新訓練整個系統(tǒng)的情況下,你可以修正模型來改變那些不正確的參數(shù),?!?維格萊夫說。
但是,,凡事都有兩面性,,調(diào)整一個大型語言模型對一種有害行為的傾向性可能會阻礙它對我們喜歡的其他行為的傾向性。例如,,明確的 “不要說……”命令可能會限制模型的創(chuàng)造性和即興發(fā)揮的能力,。即使用侵入性較小的方式來 “操縱”一個模型也會如此。
事實上,,人工智能界的許多人仍然對“用逐個神經(jīng)元的機械解釋性來確保 AI 系統(tǒng)的近期和長期安全性”是否必要,,持保留態(tài)度。
“鑒于我們的工作時限,,我不認為這是研究智能系統(tǒng)的最佳方式,。”Cohere 的戈麥斯(Gomez)說,。
事實上,,隨著資本主義勢力現(xiàn)在推動科技公司在每個行業(yè)生產(chǎn) LLM,并很快將其用于個人技術(例如 Alexa 和 Siri),,人工智能社區(qū)可能沒有那么長的時間來加深他們對 LLM 如何工作的理解,。
戈麥斯說:“最簡單的方法就是要求系統(tǒng)引用其來源,,我相信隨著這些系統(tǒng)開始被用于更重要的任務,我們將不得不要求模型的輸出要以事實為基礎,?!?/p>
沒有基準
雖然存在大量的基準來衡量語言模型的性能,如人工智能的標準化測試,,但還沒有一組通用的基準來衡量 LLM 的可解釋性,。業(yè)界還沒有采用 OpenAI 的評分系統(tǒng)來解釋 LLM 中單個神經(jīng)元的輸出。
有很多研究人員盡他們最大的努力在研究 LLM 背后的工作機制,,他們發(fā)表論文,探索研究模型的新技術,,社區(qū)中的其他研究人員則試圖在現(xiàn)有直覺的基礎上理解現(xiàn)有的進步。巴特森說:“我們還沒有一個可以達成一致并努力實現(xiàn)的指標或基準。目前我們已經(jīng)了解了一些現(xiàn)象,,現(xiàn)在正在把整體情況匯總起來,?!?/p>
巴特森說:“當你看到它的時候,你肯定知道其中的內(nèi)在機制,。你會說,,‘哦,好吧,,這是對正在發(fā)生的事情更好的描述,。”
可解釋性與一致性
雖然 LLMs 的近期安全很重要,,但未來的 LLMs 可能會帶來遠比輸出錯誤答案更嚴重的威脅,。研究員和哲學家尤德科夫斯基(Eliezer Yudkowsky)為人們敲響警鐘,他表示隨著 LLMs 變得更好,,在智力上遠遠超過人類,,以及它們變得更加自主,,它們很有可能會開始違背人類的利益。
這種可能性可能比你想象的更大,。讓我們假設 LLM 在學習和推理方面不斷進步,,并且能夠更好地捕捉數(shù)據(jù)(可能是實時視覺和音頻數(shù)據(jù)),使其在現(xiàn)實世界中站穩(wěn)腳跟,,并開始共享數(shù)據(jù)和相互訓練,。讓我們假設 LLM 最終成為 AGI(人工通用智能),,并在重要方面的表現(xiàn)遠遠超過人類智能。如果不完全了解這些強大的 LLM 的早期先例,,我們能否在其發(fā)展的各個階段管理這些大型語言模型,,使其與人類利益保持一致,,不與我們作對,,甚至不愿與我們作對呢?
目前人們在這個問題上仍然存在分歧,。尤德科夫斯基和辛頓對人類是否能夠管理人工智能系統(tǒng)中的一致性持嚴重懷疑態(tài)度,,他們都不認為在這些系統(tǒng)中實現(xiàn)機械可解釋性是一個萬能解決方案,。
尤德科夫斯基說:“如果你正處在一場全球人工智能軍備競賽中,,人們會說減速沒有意義,因為他們的競爭對手不會減速。”他認為 AI 系統(tǒng)將通過學習隱藏其內(nèi)部過程,來抵制人類的安全訓練,。如果你試圖利用自己的“作惡思想檢測器”來訓練這些巨大的、不可捉摸的語言模型矩陣,,讓它們不再“作惡”,,你就是在訓練它們反對作惡的同時,也在訓練它們反對可見性,?!?/p>
尤德科夫斯基說:“這就是為什么即使實現(xiàn)‘能夠在 AI 的思維中看到警示標志’級別的可解釋性,,也并不意味著每個人都是安全的,?!?/p>
譯者:Araon_
免責聲明:本文來自網(wǎng)絡收錄或投稿,觀點僅代表作者本人,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1069371.html
溫馨提示:投資有風險,,入市須謹慎,。本資訊不作為投資理財建議。