來源:36氪
編者按:最近蘋果和OpenAI均推出了與AI進(jìn)行語(yǔ)音對(duì)話的功能。本文是對(duì)兩家公司產(chǎn)品使用的第一印象,,作者認(rèn)為,,這兩家公司的做法體現(xiàn)出兩種 AI 哲學(xué)的分歧——屬于助理(Copilots)與智能體(Agents)之爭(zhēng)、小模型與大模型之爭(zhēng),、專家與通才之爭(zhēng),。文章來自編譯。
前兩天,,我在手機(jī)上跟兩個(gè)人工智能(AI)展開對(duì)話,。雖然兩者都很樂意與我交談(而且也進(jìn)行了交談),但各自卻體現(xiàn)出對(duì)人工智能未來截然不同的看法,有著不一樣的抱負(fù)和潛在影響,。我想明確一點(diǎn),,兩者都是早期模型,還遠(yuǎn)未成型,,但我認(rèn)為分享我迄今為止的經(jīng)驗(yàn)可能會(huì)有所幫助,。
我們要說的是 ChatGPT 新推出的高級(jí)語(yǔ)音模式以及獲得了AI新引擎的 Siri。二者不僅僅是與 AI 對(duì)話的不同方法,。從很多方面看,,它們還代表了兩種 AI 哲學(xué)的分歧——助理(Copilots)與智能體(Agents)之爭(zhēng)、小模型與大模型之爭(zhēng),、專家與通才之爭(zhēng),。
作為助理的Siri
至少目前,跟 Siri AI 對(duì)話的感覺仍然像跟舊版 Siri 的對(duì)話一樣,。你不會(huì)被驚訝到目瞪口呆,,仍然會(huì)因?yàn)?Siri 的不靠譜而感到沮喪。
缺乏“驚艷”是有原因的,,蘋果打造 Siri AI 的要?jiǎng)?wù)是保護(hù)隱私,、安全和保障。有超過 10 億人使用他們的系統(tǒng),,蘋果不希望人們面臨大語(yǔ)言模型(LLM)的各種風(fēng)險(xiǎn)與怪異之處,,他們想要的是能用且極其私密的東西。
這樣做需要權(quán)衡取舍,,于是蘋果把小型 AI 直接植入到手機(jī)上,,不依賴于互聯(lián)網(wǎng)連接。因?yàn)?AI 模型有多種規(guī)模,,所以要實(shí)現(xiàn)這一點(diǎn)還是有可能的,。比方說,Meta 的 Llama 3.1 模型參數(shù)達(dá)到了 4050 億(相當(dāng)于 GPT-4),,還有個(gè)中等規(guī)模(700 億參數(shù))的模型(大概相當(dāng)于ChatGPT-3.5),,還有一個(gè)小型(80 億參數(shù))模型。參數(shù)量體現(xiàn)了AI 模型的復(fù)雜性——數(shù)字越大通常表示系統(tǒng)功能越強(qiáng)大,,但資源密集程度越高,。我的電腦就可以跑最小的模型,但跑 4050億 參數(shù)模型需要專門的硬件,。小模型遠(yuǎn)沒有那么強(qiáng)大,,但可以在其他方面彌補(bǔ)這方面缺陷。
小模型價(jià)格低廉,、速度快,,可以在性能較弱的硬件(如手機(jī))上運(yùn)行,,并且可以專門用于執(zhí)行特定任務(wù)。與 ChatGPT 等通用模型不同,,小模型會(huì)創(chuàng)建專注于某一特定任務(wù)的人工智能,,而且通常可以做得相當(dāng)好,。Siri AI 背后就是一個(gè)小模型,,參數(shù)只有30 億,但它采用了一種巧妙的方法,,允許其設(shè)備上的人工智能切換“專家”,,比方說有總結(jié)文本的,有編輯圖像的,。由于所有工作都是在手機(jī)上完成的,,所以是加密的并且非常私密。
不過,,鑒于這是個(gè)小模型,,所以沒那么智能。事實(shí)上,,給人感覺就像在使用舊版的 Siri,,只是略有改進(jìn)。如果我問它“我今晚想去吃飯和看電影,,確保我能在 6 點(diǎn)之前到達(dá),,10 點(diǎn)之前到家。我想吃點(diǎn)辛辣的拉丁美食,,看一部動(dòng)作片”,,AI會(huì)顯得很弱智。不過,,這對(duì) LLM 來說并不是一個(gè)難題,。一個(gè)稍大一點(diǎn)的模型 Llama 8B 就能做得更好(盡管確實(shí)會(huì)犯一些細(xì)節(jié)錯(cuò)誤,因?yàn)闆]有網(wǎng)絡(luò)訪問權(quán)限),。
不過,,這只是 Apple AI 的開始,因?yàn)槲磥淼纳?jí)會(huì)讓手機(jī)上的 Siri 在無(wú)法解決問題時(shí)能向云端更強(qiáng)大的 Apple AI 尋求幫助,,甚至將真正困難的問題交給 ChatGPT,。它將能夠與應(yīng)用交互,觸發(fā)操作并從多個(gè)來源獲取信息,。這項(xiàng)技術(shù)肯定會(huì)得到改進(jìn)。
但是,,蘋果的做法不僅僅是技術(shù)上的,,還是一個(gè)哲學(xué)上的決定。人工智能有風(fēng)險(xiǎn),不可預(yù)測(cè),,會(huì)產(chǎn)生幻覺,,有可能被濫用,并不總是私密的,。所以,,蘋果決定降低濫用或失誤的危險(xiǎn)。他們把 Siri 變成了助理,。你會(huì)看到這些助理出現(xiàn)在許多產(chǎn)品之中——是功能非常狹窄的人工智能系統(tǒng),,旨在幫助完成特定任務(wù)。如此一來,,他們隱藏了大語(yǔ)言模型更奇怪,、更危險(xiǎn)、更強(qiáng)大的一面,。助理可能會(huì)有所幫助,,但不太可能帶來生產(chǎn)力的飛躍,也不會(huì)改變我們的工作方式,,因?yàn)槭艿较拗?。?qiáng)悍與安全如魚與熊掌。
作為智能體的ChatGPT Voice
如果說 Siri 是為了讓人工智能變得不那么怪異,、更可預(yù)測(cè),,那 ChatGPT Voice 則恰恰相反。它未必用小型的定制模型,,而是提供對(duì)通用 GPT-4o 全部功能的訪問,。雖然幾個(gè)月前 ChatGPT 就推出過語(yǔ)音模式,但這種模式非常不同,。它進(jìn)行的是自然對(duì)話,,會(huì)有停頓,也會(huì)連珠炮,。
比方說,,我這里用了 ChatGPT 來幫助我撰寫這篇文章的開頭段落。不僅要注意其抑揚(yáng)頓挫,,還要注意微妙的音調(diào)變化(對(duì)我和我的工作表現(xiàn)出的熱情,、聽起來很自然的音調(diào)等)。
用語(yǔ)音方式與 ChatGPT 互動(dòng)實(shí)在怪異,,因?yàn)樗墓?jié)奏,、語(yǔ)調(diào)甚至裝出來的呼吸都讓人感覺很像人類。它能夠模擬各種情緒,,因?yàn)檫@不僅僅是觸發(fā)錄音播放而已,,在輸出和輸入方面顯然完全是多模態(tài),,它接收和生成聲音的方式與老一代 LLM 接收和生成文本的方式一樣。目前,,似乎這些功能很多都被鎖定在護(hù)欄背后——正如你在下面的剪輯結(jié)尾處所看到那樣,,目前不允許人工智能生成音效,也不允許大幅改變其聲音,,這可能是為了避免被濫用——但這些能力它都具備,。
通過語(yǔ)音使用 ChatGPT 就像與人交談一樣。盡管底層模型與通常的 GPT-4o 沒什么不同,,但加上語(yǔ)音有很多影響,。比方說,語(yǔ)音輔導(dǎo)的工作方式與通過打字交流的輔導(dǎo)非常不同,。它還可以說許多其他語(yǔ)言,,為跨文化交流提供了新手段。我一點(diǎn)都懷疑大家對(duì) ChatGPT 助手會(huì)產(chǎn)生情緒反應(yīng),,后果難以預(yù)測(cè),。
但就像蘋果沒有使能系統(tǒng)的全部功能一樣,OpenAI 也留了幾手,。他們的人工智能是完全多模態(tài)的,,這意味著具備圖像和視頻識(shí)別能力,并且相對(duì)與比以前的模型也許能生成更好的圖像,。如果他們的愿景實(shí)現(xiàn),,我們很快就會(huì)有助手可以觀看、聆聽世界,,并與這個(gè)世界互動(dòng),。一旦實(shí)現(xiàn)這一目標(biāo),下一步將是智能體,,也就是你的人工智能不僅應(yīng)該能夠與你交談,,還應(yīng)該替你指定計(jì)劃,采取行動(dòng),。與助理不同的是,,智能體系統(tǒng)及其前身(如 GPT-4 語(yǔ)音)以強(qiáng)大但可能會(huì)有風(fēng)險(xiǎn)的方式去擁抱混亂。雖然設(shè)置了護(hù)欄,,但 OpenAI 的語(yǔ)音模式受到的限制要比 Apple AI少得多,,因此會(huì)以意想不到的方式與世界互動(dòng)。
鈍刀還是利刃,?
對(duì)語(yǔ)音的不同處理方式向我們展示了人工智能的未來,,這個(gè)未來涉及到在低風(fēng)險(xiǎn)、功能較弱的系統(tǒng)與讓用戶擁有更多控制和選擇的系統(tǒng)之間找到平衡,。我認(rèn)為很多公司都希望魚與熊掌兼得,,但我不確定有沒有可能性,。他們需要決定給用戶提供一把鈍刀還是利刃,前者雖然不太有效但也不怎么危險(xiǎn),,后者可用于實(shí)際工作但存在受傷風(fēng)險(xiǎn)。鈍刀不會(huì)造成傷害,,但好處也少得多,。我認(rèn)為我們需要仔細(xì)考慮何時(shí)何地選擇低風(fēng)險(xiǎn)的方案(如助理),以及我們?cè)敢庠诤翁幦萑虨E用風(fēng)險(xiǎn)以換取潛在的巨大利益(如智能體),。
這一切都還處于早期階段,,而且是基于我的第一印象,但我認(rèn)為像 GPT-4o 這樣的語(yǔ)音功能會(huì)改變大多數(shù)人與人工智能系統(tǒng)的交互方式,。語(yǔ)音及視覺交互比文本交互更自然,,對(duì)更廣泛的受眾更有吸引力。未來肯定有與人工智能對(duì)話的一席之地,。
譯者:boxi,。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1117379.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。