題:新物種?新風(fēng)口,?2023年人工智能發(fā)展到哪一步了?
作者:郭興華,,中國經(jīng)濟信息社區(qū)塊鏈首席分析師
新華財經(jīng)北京12月29日電 2022年11月底ChatGPT-3.5版本上線后,AI發(fā)展進(jìn)入全新紀(jì)元,。越來越多的資源投入多模態(tài)大模型的開發(fā)之中,,百行千業(yè)將面臨AI帶來的全面沖擊與變革,而AI本身的演化也在過去的一年,,以日新月異的速度讓人目不暇接,。
目前多模態(tài)AI可以閱讀文本、圖片,、視頻,,與人類無障礙交流,;可以根據(jù)圖片內(nèi)容提供設(shè)備故障維修建議;可以解讀冷笑話的笑點,;新一代敏捷機器人可以手握雞蛋翻轉(zhuǎn)跳躍,。人工智能迅速破圈,不僅讓眾多職場人感到了“失業(yè)危機”,,甚至程序員也深感“將來替代你的不是AI,而是會使用AI的人”,。
被理解與被超越,,“能力恐慌”之外,AI還帶來了“生存恐慌”,。OpenAI創(chuàng)始人之一兼首席科學(xué)家Ilya,、Grok和SpaceX的老板馬斯克以及眾多AI領(lǐng)域頂級科學(xué)家都認(rèn)為,AI發(fā)展強大后可能會威脅人類的生存,。目前四大頭部平臺ChatGPT、Bard,、Claude和Grok發(fā)展迅猛并競爭激烈,。國內(nèi)四大通用平臺豆包、文心一言,、通義千問和騰訊混元的性能也逐漸追了上來,。
Gemini Ultra 和GPT-4 Turbo的多模態(tài)融合更為強大
谷歌CEO Pichai認(rèn)為,目前正在進(jìn)行的AI變革,,其影響程度將遠(yuǎn)遠(yuǎn)超過移動互聯(lián)網(wǎng)或者更早的互聯(lián)網(wǎng)。根據(jù)谷歌官方報告披露,,Bard支持模型升級為Gemini,,其采用了全新的底層架構(gòu),相較于ChatGPT采用的通用型Transformer架構(gòu),,Gemini基于多模態(tài)數(shù)據(jù)處理搭建了全新的架構(gòu),,這意味著它是AI多模態(tài)大模型的原生架構(gòu),可以更好地理解,、操作與結(jié)合不同類型的信息,,包括文本、代碼,、音頻、圖像和視頻,。從技術(shù)指標(biāo)上來看,Gemini在絕大多數(shù)領(lǐng)域的表現(xiàn)均優(yōu)于GPT-4;從實際使用感受上來看,,Bard在多數(shù)情景下的交互結(jié)果確實更加優(yōu)秀。
Gemini開創(chuàng)了AI多模態(tài)原生的概念,。在此之前,正如OpenAI的報告中提到的,,Transformer是一個便于擴大規(guī)模的模塊,,能夠用于生成大型數(shù)據(jù)訓(xùn)練模型。因此同類模型,,大多需要訓(xùn)練不同模態(tài)的單獨組件,,然后將它們組合在一起,大致模仿多模態(tài)下的AI的某些功能,。因此,這些非多模態(tài)原生的模型在某些任務(wù)方面(單一模態(tài),,比如文字)表現(xiàn)良好,,但在綜合概念性和復(fù)雜的多模態(tài)推理上則難以應(yīng)對。補充一點,,Transformer也是谷歌團隊率先研發(fā)的神經(jīng)網(wǎng)絡(luò)模型,。目前谷歌迎頭趕上,有可能會促使GPT-5更快面向公眾開放,。
AI編程能力不斷提高,,開發(fā)者增值業(yè)務(wù)不斷被顛覆。從OpenAI開發(fā)者大會之后的初創(chuàng)公司反饋來看,,大量基于大模型的API進(jìn)行低代碼量開發(fā)的應(yīng)用,,基本被淘汰掉了。畢竟通過自然語言提需求,,程序就已經(jīng)寫好了,。通過AI賦能降低傳統(tǒng)IT公司代碼交付成本的業(yè)務(wù),很可能在AI一輪一輪的升級過程中逐步退出市場,。目前AI可以理解、解釋并生成世界上最受歡迎的編程語言(如Python,、Java,、C++和Go)中的高質(zhì)量代碼,并且具備跨語言工作并理解復(fù)雜信息的能力,。谷歌在報告中估計,,基于Gemini 的代碼生成系統(tǒng) AlphaCode 2,還擅長解決競爭性編程問題,,包括涉及復(fù)雜數(shù)學(xué)和理論計算機科學(xué)的問題,,甚至在編程競賽中的表現(xiàn)優(yōu)于 85% 的競賽參與者,甚至有專家估計AI能達(dá)到Top0.2%的水平,。
國內(nèi)頭部互聯(lián)網(wǎng)平臺也紛紛推出多模態(tài)大模型底座,迎頭追趕先進(jìn)水平
受制于AI算力芯片的制約,,國內(nèi)多模態(tài)大模型的發(fā)展暫時落后于美國。盡管困難重重,,2023年我國人工智能領(lǐng)域的成果也依然讓人目不暇接,。2023年6月16日,我國首個AI框架聯(lián)合倡議在上海人工智能框架生態(tài)峰會上發(fā)布,,這標(biāo)志著國內(nèi)企業(yè)和科研機構(gòu)正在聯(lián)合突圍,,打造中國的原生AI底層架構(gòu),其重要性堪比AI領(lǐng)域的操作系統(tǒng),。
12月22日,,百度文心一言、騰訊混元大模型,、阿里云通義千問,、360智腦四款國產(chǎn)大模型首批通過官方評測,通用性,、智能性等維度達(dá)到國家相關(guān)標(biāo)準(zhǔn),。“大模型標(biāo)準(zhǔn)符合性評測”由工信部中國電子技術(shù)標(biāo)準(zhǔn)化研究院發(fā)起,,為國內(nèi)首個官方評測標(biāo)準(zhǔn),。從底層架構(gòu)出發(fā),以客觀標(biāo)準(zhǔn)為引,,我國大模型已經(jīng)涵蓋文本,、語音,、圖像、視覺等多模態(tài)領(lǐng)域,,并圍繞通用性,、智能性、安全性等維度立體展開。
豆包是基于字節(jié)跳動的云雀模型開發(fā)的人工智能,,底層也是基于Transformer結(jié)構(gòu)的語言模型。豆包具有良好的訪問便利性,,是一款免費向公眾開放,,且整合了文本、圖片和拓展功能的AI工具,。通過官方評測的首批大模型中,,阿里云通義千問是唯一的開源模型,其性能表現(xiàn)及安全性得到了大范圍的公開檢驗,。12月1日開源后,,通義千問在海外權(quán)威排行榜HuggingFace上,超越Meta公司的開源大模型Llama2問鼎榜首,,成為業(yè)界公認(rèn)的性能強大的開源大模型,。
百度文心一言是中國市場第一個公開發(fā)布的ChatGPT競品,其基礎(chǔ)模型目前已經(jīng)迭代到文心大模型4.0版本,。騰訊混元大模型在商業(yè)模式上進(jìn)行了探索,,面向B端發(fā)布了一系列行業(yè)基礎(chǔ)大模型,客戶只要加入自己的場景數(shù)據(jù),,就可以生成契合自身業(yè)務(wù)需要的專屬模型,,目前涵蓋了金融、政府,、文旅,、傳媒、教育等,?!?60智腦”在安全方面具有優(yōu)勢,原生安全是其特色,。
在顛覆中被“顛覆”,,AI商業(yè)變現(xiàn)三條路徑
人工智能版本迭代太快,各路商業(yè)私服也在“需求爆滿”和“門可羅雀”的跌宕起伏中度過了漫長的2023年,。我們梳理了三條主要賽道,,以幫助對未來的AI商業(yè)賦能路徑有更清晰的認(rèn)識,它們是語言模型外圍應(yīng)用,、圖像視頻生成和多媒體內(nèi)容造假,。關(guān)于最后一條賽道,盡管充滿了法律和倫理道德的風(fēng)險和爭議,,然而卻是技術(shù)和市場關(guān)注的重點之一,。我國對電信詐騙的打擊取得了卓有成效的戰(zhàn)果,然而AI對于光影,、音頻和面部細(xì)節(jié)的仿真已經(jīng)到了專業(yè)人員難分真假的地步,,這對于整個社會體系的正常運轉(zhuǎn)都會是一項巨大的挑戰(zhàn),值得警惕,。
回顧2023年波瀾壯闊的AI創(chuàng)業(yè)大潮,。首先,圍繞GPT做AI插件的公司估值大漲,,本質(zhì)就是在大模型的加持下,,拓展應(yīng)用范圍和進(jìn)行本地化的部署,并打包成具有市場價值的軟件產(chǎn)品,。其中比較核心的技術(shù)就是向量數(shù)據(jù)庫和與之相關(guān)的檢索AI增強,。各種企業(yè)內(nèi)部大量非結(jié)構(gòu)化數(shù)據(jù)資產(chǎn)如何利用和盤活一直是個行業(yè)難題,在LLM大模型的聚合框架下,,可以為非結(jié)構(gòu)化數(shù)據(jù)創(chuàng)建和索引向量字段,,并構(gòu)建支持快速近似最近鄰查詢的向量索引,為這些數(shù)據(jù)提供了先進(jìn)的語義搜索和檢索增強功能,。在AI的加持下,,經(jīng)過一定量的開發(fā)工作,可以為用戶構(gòu)架本地向量數(shù)據(jù)庫,,盤活非結(jié)構(gòu)化數(shù)據(jù),,并對用戶內(nèi)部查詢結(jié)果進(jìn)行預(yù)處理,并提供更精確和高效的搜索結(jié)果,。
檢索增強(RAG)技術(shù)解決了GPT針對特定領(lǐng)域知識庫不全的問題,。在大模型進(jìn)行商業(yè)化本地部署的時候,彌合大模型的常識與客戶背景知識之間的差距非常重要,,RAG因此被視為對向量數(shù)據(jù)庫的重要突破,。客戶的需求如果是一道考題,,AI就是能力超強的學(xué)生,,RAG的部署將原本的閉卷考試變成了開卷考試。類似的商業(yè)場景包括,,語義搜索,、問題回答、商品推薦,,甚至無需直接提供私有數(shù)據(jù)給大模型,,就可以被AI賦能。
其次,,商業(yè)插畫,、PPT設(shè)計和圖像轉(zhuǎn)視頻等領(lǐng)域,。AI繪畫無論在畫質(zhì)還是對細(xì)節(jié)的把控上都已經(jīng)逼近或者超越了人類的極限。Midjourney,、Stable Diffusion和DALL·E在升級優(yōu)化中,,各項能力你追我趕。作為免費開源和插件眾多的Stable Diffusion,,是創(chuàng)業(yè)公司打造爆款應(yīng)用的首選,。2023年爆火的“妙鴨相機”就是基于證件照底板參數(shù),用戶進(jìn)行微調(diào)打造屬于用戶個性化最美證件照的APP,,一度引發(fā)眾多用戶排隊支付9.9元生成美美的證件照,。
最后,造假,。目前的專業(yè)化AI工具,,可以根據(jù)少量音頻、視頻和照片的學(xué)習(xí),,生成以假亂真的聲音,、圖片和視頻,甚至可以調(diào)整仿真人物的面部表情和嘴型,,來達(dá)到匹配語音的程度,。當(dāng)前充斥網(wǎng)絡(luò)的名人搞笑視頻,大多都是使用這種技術(shù)制作的,。比如:So-vits可以根據(jù)某個人的音頻資料生成專屬模型來模仿這個人的聲音,,2023年爆火的孫燕姿AI翻唱各種歌曲就是用它做的。Sad-talker可以將一張人物照片和某段音頻進(jìn)行匹配,,讓人物開口說話,。Video-retalking可以將一段人物說話的視頻與指定的音頻進(jìn)行匹配,改變原視頻的講話內(nèi)容,,合成效果更自然,。HeyGen整合了各種造假技術(shù),更容易生成一段虛假視頻,。這些騙人的技術(shù)確實會給社會帶來危害,,但是用在合法合規(guī)的影視和廣告領(lǐng)域,也許會開創(chuàng)一片商業(yè)藍(lán)海,。
在顛覆中被顛覆,,核心數(shù)據(jù)和數(shù)據(jù)更新能力才是王道。年初估值飆升的向量數(shù)據(jù)庫公司和檢索增強企業(yè),,在OpenAI公司推出GPT內(nèi)置向量數(shù)據(jù)庫和內(nèi)置檢索增加插件之后,,GPT Agents和GPTS直接將GPT生態(tài)圈的估值全面歸零。市場就是這么殘酷,,不是你不明白,,而是AI升級太快,。在可以預(yù)期的GPT-5和Gemini的后續(xù)版本中,AI已經(jīng)升級為超級智能體,,一旦某條商業(yè)路徑被初創(chuàng)公司走通,,經(jīng)過AI迭代模仿的升級版馬上就會出現(xiàn)。展望未來,,純技術(shù)之路的商業(yè)價值保質(zhì)期將越來越短,而技術(shù)與原生數(shù)據(jù),、知識庫和專利庫相結(jié)合的細(xì)分領(lǐng)域優(yōu)質(zhì)項目將會體現(xiàn)出更強大的生命力,。
編輯:王春霞
聲明:新華財經(jīng)為新華社承建的國家金融信息平臺。任何情況下,,本平臺所發(fā)布的信息均不構(gòu)成投資建議,。如有問題,請聯(lián)系客服:400-6123115
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1085489.html
溫馨提示:投資有風(fēng)險,,入市須謹(jǐn)慎。本資訊不作為投資理財建議,。