來源:36氪
編者按:最近蘋果和OpenAI均推出了與AI進行語音對話的功能,。本文是對兩家公司產(chǎn)品使用的第一印象,作者認為,,這兩家公司的做法體現(xiàn)出兩種 AI 哲學(xué)的分歧——屬于助理(Copilots)與智能體(Agents)之爭,、小模型與大模型之爭、專家與通才之爭,。文章來自編譯,。
前兩天,我在手機上跟兩個人工智能(AI)展開對話,。雖然兩者都很樂意與我交談(而且也進行了交談),,但各自卻體現(xiàn)出對人工智能未來截然不同的看法,,有著不一樣的抱負和潛在影響。我想明確一點,,兩者都是早期模型,還遠未成型,,但我認為分享我迄今為止的經(jīng)驗可能會有所幫助,。
我們要說的是 ChatGPT 新推出的高級語音模式以及獲得了AI新引擎的 Siri,。二者不僅僅是與 AI 對話的不同方法,。從很多方面看,,它們還代表了兩種 AI 哲學(xué)的分歧——助理(Copilots)與智能體(Agents)之爭,、小模型與大模型之爭、專家與通才之爭,。
作為助理的Siri
至少目前,,跟 Siri AI 對話的感覺仍然像跟舊版 Siri 的對話一樣,。你不會被驚訝到目瞪口呆,,仍然會因為 Siri 的不靠譜而感到沮喪。
缺乏“驚艷”是有原因的,,蘋果打造 Siri AI 的要務(wù)是保護隱私,、安全和保障。有超過 10 億人使用他們的系統(tǒng),,蘋果不希望人們面臨大語言模型(LLM)的各種風險與怪異之處,,他們想要的是能用且極其私密的東西。
這樣做需要權(quán)衡取舍,,于是蘋果把小型 AI 直接植入到手機上,,不依賴于互聯(lián)網(wǎng)連接。因為 AI 模型有多種規(guī)模,,所以要實現(xiàn)這一點還是有可能的,。比方說,Meta 的 Llama 3.1 模型參數(shù)達到了 4050 億(相當于 GPT-4),,還有個中等規(guī)模(700 億參數(shù))的模型(大概相當于ChatGPT-3.5),,還有一個小型(80 億參數(shù))模型,。參數(shù)量體現(xiàn)了AI 模型的復(fù)雜性——數(shù)字越大通常表示系統(tǒng)功能越強大,但資源密集程度越高,。我的電腦就可以跑最小的模型,,但跑 4050億 參數(shù)模型需要專門的硬件。小模型遠沒有那么強大,,但可以在其他方面彌補這方面缺陷,。
小模型價格低廉、速度快,,可以在性能較弱的硬件(如手機)上運行,,并且可以專門用于執(zhí)行特定任務(wù),。與 ChatGPT 等通用模型不同,小模型會創(chuàng)建專注于某一特定任務(wù)的人工智能,,而且通??梢宰龅孟喈敽?。Siri AI 背后就是一個小模型,,參數(shù)只有30 億,但它采用了一種巧妙的方法,,允許其設(shè)備上的人工智能切換“專家”,,比方說有總結(jié)文本的,有編輯圖像的,。由于所有工作都是在手機上完成的,,所以是加密的并且非常私密,。
不過,,鑒于這是個小模型,,所以沒那么智能,。事實上,給人感覺就像在使用舊版的 Siri,,只是略有改進。如果我問它“我今晚想去吃飯和看電影,,確保我能在 6 點之前到達,,10 點之前到家。我想吃點辛辣的拉丁美食,,看一部動作片”,,AI會顯得很弱智。不過,,這對 LLM 來說并不是一個難題。一個稍大一點的模型 Llama 8B 就能做得更好(盡管確實會犯一些細節(jié)錯誤,,因為沒有網(wǎng)絡(luò)訪問權(quán)限)。
不過,,這只是 Apple AI 的開始,,因為未來的升級會讓手機上的 Siri 在無法解決問題時能向云端更強大的 Apple AI 尋求幫助,甚至將真正困難的問題交給 ChatGPT。它將能夠與應(yīng)用交互,,觸發(fā)操作并從多個來源獲取信息,。這項技術(shù)肯定會得到改進。
但是,,蘋果的做法不僅僅是技術(shù)上的,,還是一個哲學(xué)上的決定,。人工智能有風險,,不可預(yù)測,,會產(chǎn)生幻覺,有可能被濫用,,并不總是私密的,。所以,蘋果決定降低濫用或失誤的危險,。他們把 Siri 變成了助理。你會看到這些助理出現(xiàn)在許多產(chǎn)品之中——是功能非常狹窄的人工智能系統(tǒng),,旨在幫助完成特定任務(wù),。如此一來,他們隱藏了大語言模型更奇怪,、更危險,、更強大的一面。助理可能會有所幫助,,但不太可能帶來生產(chǎn)力的飛躍,,也不會改變我們的工作方式,因為受到限制,。強悍與安全如魚與熊掌,。
作為智能體的ChatGPT Voice
如果說 Siri 是為了讓人工智能變得不那么怪異、更可預(yù)測,,那 ChatGPT Voice 則恰恰相反,。它未必用小型的定制模型,而是提供對通用 GPT-4o 全部功能的訪問,。雖然幾個月前 ChatGPT 就推出過語音模式,,但這種模式非常不同。它進行的是自然對話,,會有停頓,也會連珠炮。
比方說,,我這里用了 ChatGPT 來幫助我撰寫這篇文章的開頭段落,。不僅要注意其抑揚頓挫,還要注意微妙的音調(diào)變化(對我和我的工作表現(xiàn)出的熱情,、聽起來很自然的音調(diào)等),。
用語音方式與 ChatGPT 互動實在怪異,,因為它的節(jié)奏,、語調(diào)甚至裝出來的呼吸都讓人感覺很像人類。它能夠模擬各種情緒,,因為這不僅僅是觸發(fā)錄音播放而已,,在輸出和輸入方面顯然完全是多模態(tài),它接收和生成聲音的方式與老一代 LLM 接收和生成文本的方式一樣,。目前,,似乎這些功能很多都被鎖定在護欄背后——正如你在下面的剪輯結(jié)尾處所看到那樣,目前不允許人工智能生成音效,,也不允許大幅改變其聲音,,這可能是為了避免被濫用——但這些能力它都具備。
通過語音使用 ChatGPT 就像與人交談一樣,。盡管底層模型與通常的 GPT-4o 沒什么不同,,但加上語音有很多影響。比方說,,語音輔導(dǎo)的工作方式與通過打字交流的輔導(dǎo)非常不同,。它還可以說許多其他語言,為跨文化交流提供了新手段,。我一點都懷疑大家對 ChatGPT 助手會產(chǎn)生情緒反應(yīng),,后果難以預(yù)測。
但就像蘋果沒有使能系統(tǒng)的全部功能一樣,,OpenAI 也留了幾手,。他們的人工智能是完全多模態(tài)的,這意味著具備圖像和視頻識別能力,,并且相對與比以前的模型也許能生成更好的圖像,。如果他們的愿景實現(xiàn),我們很快就會有助手可以觀看,、聆聽世界,,并與這個世界互動。一旦實現(xiàn)這一目標,,下一步將是智能體,,也就是你的人工智能不僅應(yīng)該能夠與你交談,,還應(yīng)該替你指定計劃,采取行動,。與助理不同的是,,智能體系統(tǒng)及其前身(如 GPT-4 語音)以強大但可能會有風險的方式去擁抱混亂。雖然設(shè)置了護欄,,但 OpenAI 的語音模式受到的限制要比 Apple AI少得多,,因此會以意想不到的方式與世界互動。
鈍刀還是利刃,?
對語音的不同處理方式向我們展示了人工智能的未來,,這個未來涉及到在低風險、功能較弱的系統(tǒng)與讓用戶擁有更多控制和選擇的系統(tǒng)之間找到平衡,。我認為很多公司都希望魚與熊掌兼得,,但我不確定有沒有可能性。他們需要決定給用戶提供一把鈍刀還是利刃,,前者雖然不太有效但也不怎么危險,,后者可用于實際工作但存在受傷風險。鈍刀不會造成傷害,,但好處也少得多,。我認為我們需要仔細考慮何時何地選擇低風險的方案(如助理),以及我們愿意在何處容忍濫用風險以換取潛在的巨大利益(如智能體),。
這一切都還處于早期階段,,而且是基于我的第一印象,但我認為像 GPT-4o 這樣的語音功能會改變大多數(shù)人與人工智能系統(tǒng)的交互方式,。語音及視覺交互比文本交互更自然,,對更廣泛的受眾更有吸引力。未來肯定有與人工智能對話的一席之地,。
譯者:boxi,。
免責聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1117379.html
溫馨提示:投資有風險,,入市須謹慎,。本資訊不作為投資理財建議。