“得益于大語言模型推動(dòng)人工智能發(fā)展,,圖形圖像學(xué)的研究和應(yīng)用迎來新的機(jī)遇,,正在推動(dòng)大語言模型向大視覺模型發(fā)展?!?023年12月30日,,在辭舊迎新之際,中國工程院院士,、機(jī)器人視覺感知與控制技術(shù)國家工程研究中心主任王耀南在第十九屆中國圖象圖形學(xué)學(xué)會(huì)青年科學(xué)家會(huì)議上,,分享機(jī)器視覺智能化發(fā)展的最新趨勢。在接受南都記者專訪時(shí),,王耀南表示,,人工智能讓機(jī)器視覺走向智能化,,更高的算力能夠支撐大視覺模型的訓(xùn)練。不過,,更聰明的大視覺模型還需要更高的算力水平,、更好的模型架構(gòu)和更有效的學(xué)習(xí)算法。本次會(huì)議由中國圖象圖形學(xué)學(xué)會(huì)主辦,,琶洲實(shí)驗(yàn)室,、華南理工大學(xué),、中山大學(xué),、中國圖象圖形學(xué)學(xué)會(huì)青年工作委員會(huì)承辦。王耀南院士,。談行業(yè)趨勢從視覺計(jì)算走向視覺智能王耀南:我國的機(jī)器視覺研究已有接近40年的歷史,,最初是從傳感器的研究開始的,,即:將光的信息轉(zhuǎn)化成圖片信息。接下來要做的是視覺的處理,,包括將獲得的圖片增強(qiáng),,使其變得更清晰。有了清晰的圖像后,,我們需要從圖片中獲取我們感興趣的目標(biāo),。例如,在無人駕駛領(lǐng)域,,機(jī)器視覺需要對圖片中的目標(biāo)進(jìn)行檢測,,要回答哪些是人、哪些是車的問題,。這就是我們所說的機(jī)器視覺的三大領(lǐng)域,。我把它歸結(jié)為:成像、處理和理解,。機(jī)器視覺已經(jīng)從過去的視覺計(jì)算走向了今天的視覺智能,。視覺計(jì)算結(jié)合人工智能后,認(rèn)知水平得到了提升,,增強(qiáng)了對復(fù)雜環(huán)境的理解能力,,整個(gè)視覺智能化行業(yè)在去年得到了快速發(fā)展。機(jī)器視覺智能化發(fā)展的方向是進(jìn)行廣泛應(yīng)用,,應(yīng)用到工業(yè)檢測,、智能制造以及衛(wèi)星遙感等領(lǐng)域。談機(jī)器視覺,,一定要談它的應(yīng)用,,應(yīng)用驅(qū)動(dòng)技術(shù)發(fā)展。中國圖象圖形學(xué)學(xué)會(huì)有30個(gè)專委會(huì),,主要圍繞圖形圖像展開研究,,為國民經(jīng)濟(jì)服務(wù)。這些技術(shù)的應(yīng)用場景十分廣泛,,包括工業(yè),、農(nóng)業(yè)、地理信息系統(tǒng),、遙感,、國土資源等。一個(gè)人一出生就能看到這個(gè)世界,,之后理解這個(gè)世界,,80%的信息靠視覺獲取。機(jī)器視覺是要模擬人的眼睛,,最終達(dá)到人眼的水平,,并在部分方面超過人眼,,要看得更遠(yuǎn)、看得更清,。談大視覺模型大視覺模型會(huì)越來越聰明王耀南:大語言模型是用書本上,、語言上、文字上的知識(shí)作為數(shù)據(jù),,進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,,能夠根據(jù)它所學(xué)的知識(shí)進(jìn)行推理和回答,是一種數(shù)據(jù)驅(qū)動(dòng)的人工智能,。大視覺模型的數(shù)據(jù)則主要來自各種圖像,,包括人類和自然界產(chǎn)生的視覺數(shù)據(jù)。例如,,醫(yī)學(xué)大視覺模型就是將人的器官,、病變的圖像等作為視覺數(shù)據(jù)輸入到大模型中,進(jìn)行訓(xùn)練得到,,可以像大夫一樣看懂CT照片,,能夠達(dá)到病人來看病后,拍照完便能推理出病人病情的效果,。當(dāng)前的視覺大模型并沒有大家想象的和人腦一樣,,差距還很大。隨著學(xué)習(xí)的數(shù)據(jù)的增多,、模型參數(shù)的調(diào)整,,模型會(huì)越來越大、知識(shí)也會(huì)越來越多,,其智能水平就會(huì)越來越高,,越來越聰明。我們需要提高算力水平,,加快計(jì)算速度,,以能夠更快地建立模型;設(shè)計(jì)更好的模型架構(gòu),,包括可解釋性更強(qiáng),、更安全可控;還需要研究更有效的學(xué)習(xí)算法,。事實(shí)上,,視覺大模型并不是這幾年才有的,是一步一步發(fā)展過來的,。在上世紀(jì)80年代,,隨著人工智能的發(fā)展,人們開始研究神經(jīng)網(wǎng)絡(luò)的時(shí)候,就已經(jīng)有了,。只是,最近幾年的算力和算法能力提高了,,人們可以嘗試構(gòu)建大模型,,產(chǎn)生了大語言模型和大視覺模型。過去算力不夠的時(shí)候,,大家做的模型沒有那么大,。談2024年展望希望業(yè)務(wù)從廣州增長推向全國和世界王耀南:湖南大學(xué)機(jī)器人視覺感知與控制技術(shù)國家工程研究中心在2022年已經(jīng)入駐到位于粵港澳大灣區(qū)的廣州增城,建立了湖大粵港澳大灣區(qū)創(chuàng)新研究院(廣州增城),。研究院主要進(jìn)行機(jī)器智能視覺的研究和應(yīng)用,,包括智能制造、醫(yī)療制藥等領(lǐng)域的特殊作業(yè)機(jī)器人,,以及通用的大視覺模型,。例如,這些研究運(yùn)用到制造業(yè)中,,可以替代大量的人工,,完成產(chǎn)品質(zhì)量的檢測,特別是3C和高端零部件行業(yè),。當(dāng)前,,研究院已經(jīng)開發(fā)了軟硬件系統(tǒng),主要的功能是賦能廣東企業(yè)數(shù)字化,、智慧化轉(zhuǎn)型,,推動(dòng)制造業(yè)發(fā)展。此外,,研究院也開展智能的機(jī)器視覺和控制系統(tǒng),,主要用于高端智能裝備的生產(chǎn),例如工業(yè)互聯(lián)網(wǎng)軟件,,這其中有非常多的算法,。廣東是改革開放和經(jīng)濟(jì)主戰(zhàn)場的前沿,產(chǎn)業(yè)鏈,、供應(yīng)鏈齊全,,制造業(yè)企業(yè)很多,我們來到廣東布局一是出于市場需求,。此外,,我們研究中心此前已有不少研發(fā)團(tuán)隊(duì)在廣東落地了很多項(xiàng)目,進(jìn)行科技成果的轉(zhuǎn)化,。在2023年的上半年,,我們確實(shí)遇到了一些挑戰(zhàn),主要體現(xiàn)在零部件的供應(yīng)方面,。2024年,,我相信這些問題都會(huì)解決,,廣東人工智能產(chǎn)業(yè)的產(chǎn)業(yè)鏈、供應(yīng)鏈以及研發(fā)能力都會(huì)有所提升,。在國內(nèi)這個(gè)大市場里,,會(huì)開辟出新的賽道。在活力的氛圍下,,大家主動(dòng)作為,、擔(dān)當(dāng)和創(chuàng)新,挑戰(zhàn)都能解決,。我對廣東的人工智能產(chǎn)業(yè)發(fā)展充滿信心,。過去30年里,我們在科技自立自強(qiáng)方面下了很多功夫,,積累了很多科研成果,。廣東是我國經(jīng)濟(jì)第一大省。我們所從事的人工智能與機(jī)器人這個(gè)領(lǐng)域趕上了一個(gè)好機(jī)遇,,這兩年爆炸性地增長,,帶來很多新市場,拉動(dòng)了新的產(chǎn)業(yè)賽道,。未來智能終端將越來越多,,也將帶動(dòng)生產(chǎn)型設(shè)施設(shè)備行業(yè)的發(fā)展。在2024年,,我希望我們位于廣州增城的研究院能夠?qū)I(yè)務(wù)推向全國和世界,。南都廣州新聞部出品采寫:南都記者 代國輝 實(shí)習(xí)生 楊卓爾主辦方供圖
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1085956.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。