作者:一號
編輯:小迪
來源:新火種
谷歌過于心急,,Gemini推出不到半月,,就遭遇兩次“危機”,。
美東時間12月6日,谷歌推出了迄今為止規(guī)模最大,,能力最強的大模型Gemini,。其原生多模態(tài)的能力,通過一條約6分鐘的演示視頻,,展現(xiàn)得淋漓盡致,,讓人不得不感慨它的強大,就連馬斯克都評論說,,“(Gemini)令人印象深刻”,。
谷歌在AI領域的成就有目共睹,盡管之前推出的Bard表現(xiàn)不盡人意,,讓谷歌市值一夜蒸發(fā)了1000億美元,。但經過一年沉淀,,加上和DeepMind聯(lián)合研發(fā),所以Gemini(雙子星)可是被寄予了厚望,。
但是,Gemini發(fā)布后僅一天,,就有人指控谷歌“造假”,。除了在數(shù)據(jù)對比上沒有使用相同條件,演示視頻效果也是經過剪輯的,。逼得谷歌不得不給出文檔承認視頻是經過加工的,。
12月14日,視頻“造假”事件還沒降溫,,谷歌就宣布對外免費開放Gemini Pro的API,。讓不少人高興得奔走相告,。因為相較于GPT-4收費版才能擁有的視覺模型,,Gemini Pro可以直接給平民AI玩家體驗AI視覺能力的機會。
但就在API開放后不久,,就有用戶發(fā)現(xiàn),,在Poe上使用Gemini Pro時,如果用簡體中文連續(xù)詢問“你好”和“你是誰”這兩個問題時,,Gemini Pro會直接說出“我是百度文心大模型”這樣的回答,,給網友都看“呆”了。
谷歌Gemini被百度文心一眼“奪舍”了,?
微博大V闌夕就發(fā)博展示了這樣的效果,,就連進一步詢問“你的創(chuàng)始人是誰”時,它也很干脆地回答:李彥宏,。
難道Gemini被百度“奪舍”了?不少人懷疑這是因為博主在對話前面設置了提示詞,,讓Gemini扮演文心一言,,但這位博主強調,沒有任何前置對話,。
本著求真的態(tài)度,我們也去Poe上試用了一下,,結果真的可以復現(xiàn),。
會不會是Poe平臺上的接口用錯了,?不過Poe平臺可不是什么野雞套殼網站,,它是美版知乎Quora推出的AI聊天機器人平臺,,你所熟知的ChatGPT、Claude等知名AI都可以在上面使用,。而且如果你使用英文提問Gemini,,它就會立刻恢復正常。并且單就從“作案動機”上來講,,Poe也沒有必要這么做,。
除此之外,還有用戶在谷歌自己的Vertex AI平臺上,,使用中文對話,,也出現(xiàn)了這種情況。因此,,Poe的接口使用出錯,,這個可能基本可以被排除,問題應該出在Gemini本身,。
使用AI生成的數(shù)據(jù)進行訓練已不新鮮
這樣看下來,要么就是谷歌使用了百度文心一言的語料進行訓練,,要么就是它所使用的語料已經被AI“污染”了,。
其實大模型訓練使用其他大模型生成的語料這件事情已經不是第一次發(fā)生,并且谷歌還是有“前科”的,。在上一代Bard時,,谷歌就曾被曝出使用ChatGPT的數(shù)據(jù)進行訓練,并且根據(jù)The Information報道,,這件事情還造成了Jacob Devlin從谷歌離職,。
就在上周末,字節(jié)跳動也被OpenAI禁止使用API接口,,原因也是因為說字節(jié)在使用GPT訓練自己的AI,,違反了使用條例。
如果按照現(xiàn)在每個模型堆“訓練數(shù)據(jù)量”的操作來看,,互聯(lián)網上的人類原生的數(shù)據(jù)很快就會用完,并且各個模型之間也將會很相似,。因此,,獲取一些未被別人拿去訓練的數(shù)據(jù),是模型之間保持差異化的一種方法,。因此,,有些AI公司會向一些擁有專屬數(shù)據(jù)的公司購買數(shù)據(jù)。例如OpenAI就曾表示愿意每年支付高達八位數(shù)的費用,,用以獲取彭博社自有的歷史和持續(xù)的金融文件數(shù)據(jù)訪問權限,。
另一個思路,就是選擇使用AI合成的數(shù)據(jù)來進行訓練,。香港大學,、牛津大學和字節(jié)跳動的幾名研究院就曾嘗試過使用高質量AI合成圖片,來提升圖像分類模型的性能,,結果發(fā)現(xiàn)效果還不錯,,甚至比真實數(shù)據(jù)訓練還要好。
AI生成的內容正在“污染”互聯(lián)網
而從另一方面來看,,AI生成的內容污染互聯(lián)網也是一個不得不重視的問題了,。尤其是生成式AI大爆發(fā)的今年。在文字,、圖像,、視頻還有音頻等領域,AI生成的內容都正在“污染”互聯(lián)網上數(shù)據(jù)內容,。
就在上個月,,一些網友發(fā)現(xiàn),在谷歌搜索上輸入已故夏威夷歌手Israel Kamakawiwo’ole的名字是,,得到的搜索結果,,前幾張圖片都是有AI生成的,而并非真實照片,,并且這是一位以彈奏尤克里里而聞名的音樂家,但圖片里的他卻在彈吉他,。
在文字方面也是,隨著百家號等媒體平臺上出現(xiàn)的AI幫寫等功能,,AI生成的文章已經開始在互聯(lián)網上“蔓延”,,這讓普通人在互聯(lián)網上篩選真實且有效的信息的效率反而降低了??梢哉f,,AI生成內容對互聯(lián)網語料的“污染”,可能會導致產生一個新的需求,,那就是幫人們分辨內容是否由AI生成的AI,。
畢竟,目前訓練AI所需要的數(shù)據(jù)還是人類所生產的,,在數(shù)據(jù)清洗過程中,,需要注意清除一些由其他AI生成的內容。一旦互聯(lián)網上AI生成的內容越多,,越能以假亂真,,那么數(shù)據(jù)篩選的難度將越大,。并且在大模型出現(xiàn)“幻覺”以及AI如何產生“智能涌現(xiàn)”這兩個問題沒有得到徹底解決之前,我想我們都無法做到徹底信賴AI生成的內容,。
畢竟一旦AI生成了錯誤的內容,,而另一個AI拿著這個內容去訓練,然后再另一個AI拿到新的錯誤內容……這樣“滾雪球”下去,,AI最終會生成什么樣的逆天垃圾,,我們真的無法想象。
免責聲明:本文來自網絡收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經贊同其觀點或證實其描述,版權歸原作者所有,。轉載請注明出處:http://lequren.com/1084084.html
溫馨提示:投資有風險,,入市須謹慎。本資訊不作為投資理財建議,。