近年來,,人工智能與OCR(光學(xué)字符識別)技術(shù)的結(jié)合愈發(fā)緊密,,圖像文檔中涉及的復(fù)雜結(jié)構(gòu)如漢字結(jié)構(gòu),、表格結(jié)構(gòu)、文檔總體結(jié)構(gòu)的建模問題,,逐漸成為研究熱點(diǎn)。人工智能未來將走向何方,?人工智能未來將走向何方?
新聞晨報
2023-03-23 01:30新聞晨報社官方帳號關(guān)注
人工智能未來將走向何方,?
圖文智能信息技術(shù)領(lǐng)域
未來會朝什么方向發(fā)展,?
日前,,中國圖象圖形學(xué)學(xué)會(CSIG),、合合信息公司、CSIG文檔圖像分析與識別專業(yè)委員會聯(lián)合舉辦以“圖文智能處理與多場景應(yīng)用技術(shù)展望”為主題的“CSIG企業(yè)行”活動,,邀請來自上海交通大學(xué),、復(fù)旦大學(xué)、中國科技大學(xué),、廈門大學(xué)等知名高等學(xué)府的專家學(xué)者,,來自位于靜安的合合信息公司,公司技術(shù)團(tuán)隊一起,,面向業(yè)內(nèi)研究者分享圖像文檔處理中的結(jié)構(gòu)建模,、底層視覺技術(shù)、跨媒體數(shù)據(jù)協(xié)同應(yīng)用,、生成式人工智能及對話式大型語言模型等研究及實(shí)踐成果,。
左右滑動查看更多
生成式人工智能將成為未來十年研究重心
據(jù)國際IT研究機(jī)構(gòu)Gartner預(yù)測,到2025年,,生成式人工智能產(chǎn)生的數(shù)據(jù)將占據(jù)人類全部數(shù)據(jù)的10%,,生成式人工智能技術(shù)正加速數(shù)字經(jīng)濟(jì)的發(fā)展。
活動現(xiàn)場,,上海交通大學(xué)人工智能研究院常務(wù)副院長,、長江學(xué)者楊小康分享了團(tuán)隊在生成式人工智能領(lǐng)域的工作,并表示,,目前的生成式人工智能還存在解空間巨大,、宏觀一致性差,、微觀清晰度受限等問題,,需要通過數(shù)學(xué)、物理,、信息論,、腦認(rèn)知、計算機(jī)等學(xué)科交叉研究,,進(jìn)一步夯實(shí)生成式人工智能的基礎(chǔ)理論,,通過“物理+數(shù)據(jù)”聯(lián)合驅(qū)動,“虛擬+現(xiàn)實(shí)”深度融合,,助力科學(xué)發(fā)現(xiàn)的加速,。
楊小康認(rèn)為,以“識別——分析”為代表的判別式人工智能推動了人工智能前十年的發(fā)展,,接下來十年,,以“合成——重建”為代表的生成式人工智能將成為主流。
近期頻頻上“熱搜”的ChatGPT是生成式人工智能的典型代表,,對此,,復(fù)旦大學(xué)計算機(jī)學(xué)院教授、上海市計算機(jī)學(xué)會自然語言處理專委會主任邱錫鵬認(rèn)為,,強(qiáng)大的情景學(xué)習(xí)能力,、思維鏈能力和自然指令學(xué)習(xí)能力,是以ChatGPT為代表的對話式大型語言模型的主要特點(diǎn),,將加速通用人工智能的實(shí)現(xiàn),。據(jù)悉,今年2月,,復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室發(fā)布了國內(nèi)第一個對話式大型語言模型“MOSS”,,引發(fā)業(yè)內(nèi)廣泛關(guān)注,邱錫鵬是主要作者之一,。
“文本所承載的知識只是冰山一角,,還有很多‘暗知識’并不是以文本形式記錄的。在未來的發(fā)展里,,人工智能還有‘具身學(xué)習(xí),、跨模態(tài)學(xué)習(xí)’等更多知識領(lǐng)域需要學(xué)習(xí)?!鼻皴a鵬說,。
復(fù)雜場景多模態(tài)數(shù)據(jù)分析與理解進(jìn)展迅速
人工智能要實(shí)現(xiàn)多場景“通用”,,需要解決多源數(shù)據(jù)的問題。
廈門大學(xué)科技處處長,、人工智能研究院負(fù)責(zé)人紀(jì)榮嶸教授認(rèn)為,社交媒體等信息渠道包含了海量非合作,、異構(gòu)化,、跨模態(tài)的數(shù)據(jù),既蘊(yùn)藏了大量的人類知識與高價值信息,,也包含了各種自然與人為的噪聲,,對其分析與處理需要融合類腦計算、計算機(jī)視覺,、自然語言處理等多個維度的智能技術(shù),。
紀(jì)榮嶸指出,連接視覺與自然語言的“視覺描述”領(lǐng)域,,是最受關(guān)注且最具潛力的人工智能研究任務(wù)之一 ,。視覺和語言的研究應(yīng)是雙向的,各自的新發(fā)現(xiàn),、新方法可以互相迭代促進(jìn),。跨空間,、跨領(lǐng)域,、跨任務(wù)知識遷移方面有較大探索空間,易于發(fā)現(xiàn)新的科學(xué)問題,。
圖像文檔結(jié)構(gòu)分析、底層視覺技術(shù)發(fā)展受關(guān)注
近年來,,人工智能與OCR(光學(xué)字符識別)技術(shù)的結(jié)合愈發(fā)緊密,,圖像文檔中涉及的復(fù)雜結(jié)構(gòu)如漢字結(jié)構(gòu)、表格結(jié)構(gòu),、文檔總體結(jié)構(gòu)的建模問題,,逐漸成為研究熱點(diǎn)。
對此,,中國科學(xué)技術(shù)大學(xué)語音及語言信息處理國家工程研究中心副教授杜俊就團(tuán)隊在文檔結(jié)構(gòu)層次化重建領(lǐng)域的最新進(jìn)展進(jìn)行分享,。
“現(xiàn)階段文檔分析任務(wù)中,大多數(shù)研究是針對單頁內(nèi)的文章要素的解析,,但從內(nèi)容角度看,,許多文檔頁與頁之間內(nèi)容有關(guān)聯(lián)?!倍趴”硎?,圖像文檔處理能力要達(dá)到“篇章級”,,突破手寫、自然場景下的漢字建模難點(diǎn),,做好跨頁文檔的要素分類,、文檔結(jié)構(gòu)恢復(fù)是團(tuán)隊的主要研究目標(biāo)。
活動現(xiàn)場,,合合信息圖像算法研發(fā)總監(jiān)郭豐俊博士針對目前底層視覺技術(shù)在處理形變、模糊,、陰影遮蓋,、背景雜亂的文檔時遇到的典型問題,,就公司技術(shù)團(tuán)隊在智能圖像處理技術(shù)模塊,、融合技術(shù)典型應(yīng)用、圖像安全領(lǐng)域等領(lǐng)域的研究成果進(jìn)行了分享,。
據(jù)郭豐俊介紹,,合合信息智能文檔處理技術(shù)基于對圖像目標(biāo)區(qū)域的精準(zhǔn)裁剪,對彎曲,、傾斜透視的頁面進(jìn)行形變矯正,,在去除陰影、摩爾紋后,,通過人工智能技術(shù)對文檔圖像進(jìn)行增強(qiáng)銳化和清晰度提升,,能達(dá)到“圖像質(zhì)量增強(qiáng)”的效果,在改善閱讀體驗(yàn)的同時,,也提升了識別轉(zhuǎn)換,、圖像分析等文檔處理下游任務(wù)的質(zhì)效,相關(guān)技術(shù)已通過“掃描全能王”等智能文字識別產(chǎn)品,,服務(wù)全球上百個國家和地區(qū)的上億用戶,。
來源:上海靜安
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1005404.html
溫馨提示:投資有風(fēng)險,,入市須謹(jǐn)慎。本資訊不作為投資理財建議,。