“通用人工智能將打造智能汽車的‘智慧飛輪’,讓人、車和模型之間產(chǎn)生更多有效交互,,打通三者之間的互動閉環(huán),,讓AI更精準地理解人的需求,帶來更好的駕乘體驗。” 商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家,、絕影智能汽車事業(yè)群總裁王曉剛在2023中國電動汽車百人會智能汽車論壇上說,。
上周,,由中國電動汽車百人會主辦,,清華大學(xué)、中國汽車工程學(xué)會,、中國汽車工業(yè)協(xié)會,、中國汽車技術(shù)研究中心,、中國汽車工程研究院協(xié)辦的2023中國電動汽車百人會論壇在北京成功舉辦。商湯科技聯(lián)合創(chuàng)始人王曉剛教授受邀出席會議,,并發(fā)表《通用人工智能下的智能汽車》主旨演講,,為人們描繪了通用人工智能(AGI)賦能人機共智的美好未來。
以下為王曉剛教授演講內(nèi)容梳理,。
通用人工智能引發(fā)新一輪范式革新
新年伊始,,ChatGPT 、GPT-4 掀起了通用人工智能的熱潮,,這是一場新的技術(shù)革命,。非常有幸與大家一起探討通用人工智能和多模態(tài)大模型為智能汽車帶來的機遇和挑戰(zhàn)。
2022年以來,,新的通用人工智能開始以更加高效的方式解決海量的開放式任務(wù),。它更加接近人的智能,而且能夠產(chǎn)生有智慧的內(nèi)容,,也帶來了新的研究范式——基于一個非常強大的多模態(tài)基模型,,通過強化學(xué)習(xí)和人的反饋,不斷解鎖模型的新能力,。
那么,,什么是通用人工智能?它與現(xiàn)有的人工智能系統(tǒng)有哪些區(qū)別,?
其實,,現(xiàn)有的人工智能系統(tǒng)也能夠接收多模態(tài)數(shù)據(jù),但輸出的任務(wù)都是事先定義好的,,若為系統(tǒng)增加一個新任務(wù),,就要對其進行重新設(shè)計,,還要采集大量樣本。
而在通用人工智能時代,,人們通過輸入提示詞和多模態(tài)內(nèi)容,,便可生成多模態(tài)數(shù)據(jù)。更重要的是,,它可以用自然語言方式生成任務(wù)描述,,以非常靈活的方式應(yīng)對大量長尾問題和開放性任務(wù),甚至是一些主觀的描述,。
比如,,在做一些特定場景的檢索任務(wù)時,一個現(xiàn)有的人工智能系統(tǒng)可能有幾十個標簽,。商湯做過實驗,,如果用自然語言描述可能會有1萬多個詞,通過它們的組合去描述各種任務(wù),,實際上是非常強大且靈活的,。
舉個例子,給定一張自動駕駛場景中的圖片,,判斷是否需要減速,。通過現(xiàn)有的 AI系統(tǒng),首先要做物體檢測,,然后在物體框里做文字識別,,最后做決策,整個過程每一個模塊都是事先定義好的任務(wù),。
而在通用人工智能技術(shù)下,,給定圖像,人們只需用自然語言去問圖像問題,,比如“這個圖標是什么意思,?”“接下來應(yīng)該做什么?”模型本身不會發(fā)生變化,,輸出端通過自然語言的方式給出一系列邏輯推理,,最后得出結(jié)論。比如,,它會告訴你“限速30公里“”前面100米是學(xué)校的區(qū)域“”有小孩“”應(yīng)該小心駕駛“”需將車速降到30公里以下”等操作,。
可以看到,這都是一些開放式的新任務(wù),,可以對人工智能系統(tǒng)帶來非常大的變革,。
從“數(shù)據(jù)飛輪”到“智慧飛輪”
通用人工智能還有非常強的一點,它能夠產(chǎn)生內(nèi)容,而且是有智慧的內(nèi)容,。
自動駕駛/智能汽車領(lǐng)域有“數(shù)據(jù)飛輪”說法,,即模型能夠加持終端,采取高質(zhì)量的數(shù)據(jù)對模型進行更新,,然后再從終端提升數(shù)據(jù)的量和質(zhì),。
通用人工智能時代則會產(chǎn)生“智慧飛輪”,人和模型之間可以產(chǎn)生互動,。當人們?yōu)槟P洼斎階lign With Human Intention時,,雖然模型很強大,但它并不知道人們需要什么樣的能力,,不過通過人的反饋,,它就能更好地理解人需要它展示什么樣的能力而去解鎖更多的技能,同時模型為人輸出有智慧的內(nèi)容,,從而激發(fā)人們更多的創(chuàng)作智慧,,隨后又會產(chǎn)生新的“智慧飛輪”。
值得一提的是,,AGI對算力的需求非常大,。ChatGPT具備1750億參數(shù), 需要3000~5000張A100訓(xùn)練卡,一次訓(xùn)練的成本上千萬美金,。直到今天,,它的推理成本每天也高達幾百萬美金,。
2021年,,商湯提前布局,在上海臨港建立了人工智能計算中心(AIDC),。作為SenseCore商湯 AI大裝置的算力基座,,AIDC基于2.7萬塊GPU的并行計算系統(tǒng)實現(xiàn)了5.0 exaFLOPS的算力輸出,可支持最多20個千億參數(shù)量超大模型(以千卡并行)同時訓(xùn)練,。
從2019年開始,,商湯從10億參數(shù)的視覺模型研發(fā),到今天有320億參數(shù)全球最大規(guī)模的通用視覺模型,。在NLP領(lǐng)域,,商湯當前也有接近2000億參數(shù)的大模型,有能力去訓(xùn)練1800億參數(shù)的多模態(tài)大模型,。所以,,未來通用人工智能基于多模態(tài)的基模型可以做視覺感知、語言理解,、內(nèi)容生成和推理決策,。
通用人工智能賦能絕影駕、艙、云三位一體產(chǎn)品體系
商湯絕影是商湯旗下的智能汽車業(yè)務(wù)板塊,,堅持駕,、艙、云三位一體的發(fā)展策略,,希望通過駕艙融合帶來更好的駕乘體驗,。
商湯AI云能夠為自動駕駛提供數(shù)據(jù)閉環(huán)服務(wù),能夠使智能座艙成為第三生活空間,。同時,,AI云也為通用人工智能賦能智能駕駛和智能座艙奠定了非常強大的基礎(chǔ)。
在自動駕駛領(lǐng)域,,BEV是當前主流的技術(shù)路線,,未來可以朝著多模態(tài)、通用智能的方向發(fā)展,。
通過AIGC可生成困難樣本,,在模型中輸入多模態(tài)數(shù)據(jù),同時自動駕駛多模態(tài)大模型可以做到感知和決策一體化,。在輸出端,,通過環(huán)境解碼器可對3D環(huán)境進行重建,實現(xiàn)環(huán)境的可視化理解,;行為解碼可生成完整的路徑規(guī)劃,;同時,動機解碼器可以用自然語言描述推理的過程,,進而使自動駕駛系統(tǒng)變得可以解釋,。
商湯基于多模態(tài)大模型,可做到數(shù)據(jù)的感知閉環(huán)和決策閉環(huán),。從前端自動采集高質(zhì)量的數(shù)據(jù),,到利用大模型進行自動化的數(shù)據(jù)標注和產(chǎn)品檢測,能夠幾百倍地提升模型迭代的效率并降低成本,。
在智能座艙板塊,,通用人工智能可以使基模型具備對空間環(huán)理解、用戶狀態(tài)感知,、多模態(tài)指令解析及多輪邏輯對話,、內(nèi)容生成等一系列能力,進而賦能包括情緒感知,、智能助手,、基于情感的對話、創(chuàng)意內(nèi)容生成,、個性交互等一系列功能,,不斷地提升座艙的個性化體驗。
同時,應(yīng)用場景也可以從上車,、行車,、停車、離車,,進而拓展到娛樂,、辦公、購物,、休息等等,。
實際上,智能汽車是通用人工智能實現(xiàn)閉環(huán)的一個理想場景,,人類已經(jīng)可以做到人機共駕,。未來,車和模型之間能夠產(chǎn)生更有效的互動,,從而完成從人到車,、到模型的互動閉環(huán),通用人工智能可為人們提供更好的駕乘體驗,,解鎖無限的想象空間,。
商湯愿與客戶及合作伙伴共同邁向通用人工智能時代!
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1011444.html
溫馨提示:投資有風(fēng)險,,入市須謹慎。本資訊不作為投資理財建議,。