編者按:盡管人工智能的功能日益強(qiáng)大,但它在內(nèi)部是如何實(shí)現(xiàn)這些功能的卻一直是個(gè)謎,。黑箱問題帶來了極大的不確定性,,但Anthropic最近發(fā)布的論文似乎給這個(gè)黑箱敲開了一道縫。文章來自編譯。
過去十年,,人工智能研究員 Chris Olah 對人工神經(jīng)網(wǎng)絡(luò)一直都很癡迷,。他對一個(gè)問題特別著迷,不管是在 Google Brain,,還是 OpenAI以及現(xiàn)在他擔(dān)任聯(lián)合創(chuàng)始人的Anthropic,,這個(gè)問題一直是他工作的焦點(diǎn)。他說:“我們做出了這些系統(tǒng),,但卻不知道其內(nèi)部都發(fā)生了什么,,這似乎是很瘋狂的?!?/p>
現(xiàn)如今,,生成式人工智能已經(jīng)無處不在,而這個(gè)問題也成為了大家關(guān)注的核心問題,。ChatGPT,、Gemini 以及Anthropic自己的 Claude 等大語言模型的語言能力一方面讓人眼花繚亂,一方面又因往往會(huì)胡編亂造而惹毛大家,。其解決之前棘手問題的潛能讓技術(shù)樂觀主義者著迷,。但 LLM 對我們而言是陌生人。哪怕是開發(fā)它們出來的人都不知道它們究竟是怎么工作的,,并為此需要花大功夫設(shè)立護(hù)欄,,以防生成偏見、錯(cuò)誤信息,,甚至致命化學(xué)武器的藍(lán)圖,。如果開發(fā)模型的人知道這些“黑箱”里面究竟發(fā)生了什么事情的話,讓它們變得更安全就會(huì)更加容易。
Olah 相信我們正朝著這個(gè)方向前進(jìn),。他領(lǐng)導(dǎo)的 Anthropic 團(tuán)隊(duì)已經(jīng)可以對這個(gè)黑箱窺探一番,。他們的工作基本上算是試圖對大語言模型進(jìn)行逆向工程,以了解它們?yōu)槭裁磿?huì)生成特定的輸出——根據(jù)近日發(fā)布的一篇論文,,他們已經(jīng)取得了重大進(jìn)展,。
如果你看過神經(jīng)科學(xué)研究的話,應(yīng)該知道這是試圖通過解釋核磁共振(MRI)掃描來確定人類大腦是否在思考飛機(jī),、泰迪熊或鐘樓,。類似地,Anthropic 也深入研究了大語言模型 Claude 的神經(jīng)網(wǎng)絡(luò)內(nèi)在的數(shù)字糾纏,,并大概確定了人工神經(jīng)元的哪些組合會(huì)引發(fā)特定的概念或“特征”,。該公司的研究人員已經(jīng)確定哪些人工神經(jīng)元組合表征的是墨西哥卷餅、編程代碼中的分號,,或者是致命生物武器等,。此類工作對人工智能安全可能會(huì)產(chǎn)生巨大影響:如果能找出大語言模型內(nèi)部潛伏的危險(xiǎn)的話,大概就能更好地阻止危險(xiǎn)發(fā)生,。
Anthropic 的“機(jī)制可解釋性”(mechanistic interpretability)團(tuán)隊(duì)共有 18 名人類學(xué)研究人員,,我采訪了Olah及其他3名同事。他們解釋說,,他們的方法是把人工神經(jīng)元看作是西方字母,。這些字母本身通常沒有意義,但按一定順序串在一起之后就能產(chǎn)生意義,。Olah說:“C 通常沒有任何意義,,但 car 就有意義?!备鶕?jù)這個(gè)原理解釋神經(jīng)網(wǎng)絡(luò)牽涉到所謂的詞典學(xué)習(xí)(dictionary learning)技術(shù),,就是將一組神經(jīng)元關(guān)聯(lián)起來,當(dāng)這些神經(jīng)元同時(shí)激發(fā)時(shí),,就會(huì)喚起一個(gè)特定的概念,,也就是特征。
人類學(xué)研究科學(xué)家喬?!ぐ吞厣?(Josh Batson) 說道:“這會(huì)有點(diǎn)令人困惑,。我們在大語言模型提取了約 1700 萬個(gè)不同的概念,,但這些概念并未被標(biāo)注出來,,因此很難理解,。所以我們只能去看看這種模式在什么時(shí)候會(huì)出現(xiàn)。”
去年,,該團(tuán)隊(duì)開始試驗(yàn)一種只用了單層神經(jīng)元的微型模型,。(復(fù)雜的大語言模型有幾十層)他們希望在最簡單的環(huán)境下能發(fā)現(xiàn)指定特征的模式。他們進(jìn)行過無數(shù)次實(shí)驗(yàn)但都沒有取得成功,。之后,一項(xiàng)叫做“Johnny”的實(shí)驗(yàn)開始將神經(jīng)模式與輸出所出現(xiàn)的概念建立起關(guān)聯(lián)。
研究人員突然那之間就能識別出一組神經(jīng)元正在編碼的特征了。他們可以窺見黑箱的一瞥了,。Henighan 說他識別出了所看到的前五個(gè)特征,。其中有一組神經(jīng)元表示的是俄語文本,。另一組與 Python 計(jì)算機(jī)語言的數(shù)學(xué)函數(shù)有關(guān),。諸如此類。
在證明了自己能夠識別微型模型的特征之后,研究人員投入到更艱巨的實(shí)戰(zhàn)當(dāng)中,去破解完整規(guī)模的大語言模型,。他們的破解目標(biāo)是 Claude Sonnet,Anthropic當(dāng)前的三個(gè)模型當(dāng)中能力居中的那個(gè),。結(jié)果也成功了。他們注意到某個(gè)特征與金門大橋有關(guān),發(fā)現(xiàn)一組神經(jīng)元同時(shí)激活時(shí)表明 Claude 正在“想”著那個(gè)將舊金山與馬林縣連在一起的巨大結(jié)構(gòu),。更重要的是,當(dāng)類似的神經(jīng)元組激活時(shí),會(huì)喚起與金門大橋關(guān)聯(lián)的主題:惡魔島,、加州州長加文·紐瑟姆和以舊金山為背景的希區(qū)柯克電影《迷魂記》,。該團(tuán)隊(duì)總共確定了數(shù)百萬個(gè)特征——這些特征就像解碼 Claude 神經(jīng)網(wǎng)絡(luò)的羅塞塔石碑一樣,。其中有很特征與安全有關(guān),,比如“出于某種不可告人的目的接近某人”,、“討論生物戰(zhàn)”以及“統(tǒng)治世界的邪惡陰謀”等。
Anthropic 團(tuán)隊(duì)的下一步行動(dòng)是看看能否利用這些信息來改變 Claude 的行為,。他們開始操縱神經(jīng)網(wǎng)絡(luò),,去增強(qiáng)或減弱某些概念——就好像給人工智能大腦動(dòng)手術(shù),給每個(gè)特征都加個(gè)撥盤,,看看調(diào)節(jié)到什么位置能讓大語言模型變得更安全,,或增強(qiáng)其在特定領(lǐng)域的能力。
到目前為止,,這個(gè)問題的答案似乎是:把撥盤調(diào)到合適位置非常重要,。Anthropic 表示,通過抑制某些特征,,模型就可以生成更安全的計(jì)算機(jī)程序并減少偏見,。比方說,,該團(tuán)隊(duì)發(fā)現(xiàn)了若干代表危險(xiǎn)做法的特征,,如不安全的計(jì)算機(jī)代碼,、詐騙電子郵件,,以及制造危險(xiǎn)產(chǎn)品的說明,。
當(dāng)團(tuán)隊(duì)故意激活這些危險(xiǎn)的神經(jīng)元組合時(shí),,情況則正好相反。Claude就會(huì)炮制出帶有危險(xiǎn)的緩沖區(qū)溢出漏洞的計(jì)算機(jī)程序、詐騙電子郵件,,而且會(huì)樂于提供制造毀滅性武器的方法建議,。如果把撥盤調(diào)得太大時(shí),,語言模型就會(huì)對那個(gè)特征表現(xiàn)出癡迷。比方說,,當(dāng)研究團(tuán)隊(duì)把金門大橋的特征撥盤調(diào)到很高的數(shù)值時(shí),,Claude就會(huì)不斷把話題轉(zhuǎn)移到那座雄偉大橋上。在被問到它的物理形態(tài)是什么樣的時(shí)候,,大語言模型回答說:“我是金門大橋……我的物理形態(tài)就是這座標(biāo)志性大橋本身,?!?/p>
該研究論文表示,,當(dāng)人類學(xué)研究人員把與仇恨和誹謗相關(guān)的特征增強(qiáng)到正常值的 20 倍時(shí),,就會(huì)“導(dǎo)致Claude交替出現(xiàn)種族主義言論與自我憎恨”,,多到甚至讓研究人員都感到不安,。
鑒于這樣的結(jié)果,,那旨在幫助讓人工智能變得更安全的Anthropic會(huì)不會(huì)事與愿違,提供了一個(gè)也可以用來制造人工智能災(zāi)難的工具包呢?不過研究人員表示,,如果用戶愿意的話,還有其他更簡單的方法來制造這些問題。
Anthropic 的團(tuán)隊(duì)并不是唯一一支致力于破解大語言模型黑箱的團(tuán)隊(duì)。DeepMind 有個(gè)團(tuán)隊(duì)也在研究這個(gè)問題,,該團(tuán)隊(duì)的負(fù)責(zé)人曾與 Olah 一起共事過,。美國東北大學(xué)的 David Bau 領(lǐng)導(dǎo)的一支團(tuán)隊(duì)開發(fā)了一個(gè)系統(tǒng),,用來識別和編輯開源大語言模型的事實(shí)。該團(tuán)隊(duì)給這個(gè)系統(tǒng)命名為“羅馬”,因?yàn)檠芯咳藛T只需稍加調(diào)整就能讓模型相信埃菲爾鐵塔就在梵蒂岡對面,距離羅馬斗獸場只有幾個(gè)街區(qū),。Olah 說,,自己對看到有越來越多的人正在用各種技術(shù)來解決這個(gè)問題感到欣慰,。“兩年半前,,我們還在思考并非常擔(dān)心這個(gè)問題,,但現(xiàn)在已經(jīng)有一個(gè)規(guī)模相當(dāng)大的社區(qū)在努力推動(dòng)解決問題?!?/p>
OpenAI 已經(jīng)放棄了安全研究計(jì)劃,,對此Anthropic 的研究人員不愿發(fā)表評論,也不愿對其團(tuán)隊(duì)聯(lián)合負(fù)責(zé)人 Jan Leike的言論(Jan Leike表示,,該團(tuán)隊(duì)一直在“逆風(fēng)前行”,,總是得不到足夠的算力。OpenAI 此后重申自己仍致力于確保安全,。)相比之下,, Anthropic 的詞典團(tuán)隊(duì)表示,自己對算力的大量需求在公司領(lǐng)導(dǎo)層那里總是有求必應(yīng),。
Anthropic 的工作只是開始,。在被問及黑箱問題是否已經(jīng)得到解決時(shí),Anthropic的研究人員異口同聲說“并沒有”,。且目前宣布的發(fā)現(xiàn)仍存在很多的局限性,。比方說,他們用來識別 Claude 特征的技術(shù)不一定能幫助解碼其他的大語言模型,。東北大學(xué)的Bau 表示,,他對 Anthropic 團(tuán)隊(duì)的工作感到興奮,而且他們在操縱模型方面的成功“是他們發(fā)現(xiàn)了有意義的特征的絕佳跡象”,。
但Bau也表示,,這種方法的某些局限性也抑制了他的熱忱。他說,字典學(xué)習(xí)根本沒法識別出大語言模型考慮的所有概念,,因?yàn)樘卣饕桃鈱ふ也拍茏R別出來,。所以這樣子繪制出來的圖景注定是不完整的,不過 Anthropic 則表示,,字典規(guī)模擴(kuò)大可能會(huì)緩解這種情況,。
但不管怎樣說, Anthropic 的工作似乎還是給這個(gè)黑箱撬開了一道縫,。然后,,就會(huì)有光。
譯者:boxi,。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1105887.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。