潮新聞客戶端 通訊員 鄭蒙蒙6月24日,,2023年度國家科學(xué)技術(shù)獎在北京揭曉,,共評選出250個項目。據(jù)了解,,由科大訊飛股份有限公司牽頭,聯(lián)合中國科學(xué)技術(shù)大學(xué),、清華大學(xué),、華為終端有限公司、中移(杭州)信息技術(shù)有限公司等高校及行業(yè)領(lǐng)軍企業(yè)聯(lián)合完成的“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項目榮獲2023年度國家科技進步獎一等獎,。獲獎證書這是深度學(xué)習(xí)引發(fā)全球人工智能浪潮以來,過去十年人工智能領(lǐng)域的首個國家科學(xué)技術(shù)進步獎一等獎,。這也是科大訊飛繼2002年和2011年兩次獲得國家科學(xué)技術(shù)進步獎二等獎之后,首次獲得國家科學(xué)技術(shù)進步獎一等獎,。中國科技“亮劍”之作此次獲獎項目是科大訊飛聯(lián)合清華大學(xué),、中國科大、華為,、中國移動等“實力派”國家隊共同完成,,稱得上是一件中國科技的“亮劍”之作。據(jù)了解,,多語種智能語音技術(shù)對于支撐人機交互,、人類語言互通及國家安全等需求具有重大戰(zhàn)略意義,具有十分廣闊的產(chǎn)業(yè)前景,,是當(dāng)前國際科技競爭核心焦點之一,。然而,智能語音也面臨著如何突破復(fù)雜場景語音技術(shù)大規(guī)模實用門檻,,如何基于自主可控的平臺,、實現(xiàn)國產(chǎn)軟硬件的語音產(chǎn)業(yè)鏈自主可控等問題。為解決語音識別研究中最具挑戰(zhàn)的是遠場,、噪聲,、多人語音混疊等現(xiàn)象導(dǎo)致的“雞尾酒會”效應(yīng)典型難題,科大訊飛提出了多通道語音信號時空分離建模方法和多維度語音屬性解耦表征方法,,實現(xiàn)語音信號中內(nèi)容,、噪聲等高度耦合的多維屬性特征解耦,使得復(fù)雜場景下語音識別準確率得到重大突破,。如何應(yīng)對小語種智能語音系統(tǒng)構(gòu)建所面臨的知識匱乏,、訓(xùn)練數(shù)據(jù)稀缺等難題?科大訊飛設(shè)計了全新的多語種通用音素體系和基本語言單元,,實現(xiàn)多語種統(tǒng)一音素韻律體系的構(gòu)建,,又通過基于元學(xué)習(xí)的多語種預(yù)訓(xùn)練和基于語族分組的多語種共享建模——通俗地說,,就是將不同的小語種進行分類,,找到同類語種的共同規(guī)律,進行分析建模和訓(xùn)練——最終,,顯著提升了小語種語音系統(tǒng)性能,。同時,,為解決復(fù)雜應(yīng)用場景下語音交互、語音翻譯面臨著深層次語義理解困難,、專業(yè)性不足等問題,,科大訊飛提出語音語義互增強的魯棒口語理解技術(shù),有效提升語音交互,、語音翻譯等復(fù)雜場景的語義理解準確率,;提出多源知識增強的可信文本生成技術(shù),提升專有詞匯及領(lǐng)域知識引用的準確率,。在解決使用國產(chǎn)芯片開展智能語音算法模型訓(xùn)練和推理面臨的性能低,、適配難方面,科大訊飛提出的硬件親和的變長輸入算子融合和聯(lián)合統(tǒng)一量化感知訓(xùn)練技術(shù),,通過軟硬件協(xié)同優(yōu)化的動態(tài)張量算子自動融合方法,,實現(xiàn)對語音等變長輸入的訓(xùn)練性能優(yōu)化達到國際主流芯片同等水平;通過多硬件聯(lián)合的量化計算模擬,,達到模型單次訓(xùn)練后可在不同硬件平臺上一鍵部署,,解決了智能語音技術(shù)硬件平臺的“卡脖子”問題?!绊斕炝⒌亍睒?gòu)建產(chǎn)業(yè)生態(tài)如今,,該技術(shù)成果不僅在全國兩會,、博鰲論壇等重要政務(wù)和商務(wù)交流場合得到廣泛應(yīng)用,,更在中國品牌“走出去”戰(zhàn)略中發(fā)揮了關(guān)鍵推動作用。以智能手機為例,,項目支持各主流手機廠商累計激活設(shè)備超10億臺,;智能汽車方面,車載智能化產(chǎn)品累計前裝超 5300萬套,,2023年中國汽車出海十強企業(yè)中,,有8家企業(yè)都在和科大訊飛合作;智能軟硬件方面,,有力支撐訊飛翻譯機,、訊飛智能錄音筆、訊飛聽見等智能軟硬件產(chǎn)品不斷創(chuàng)新,,其中,,訊飛翻譯機目前能支持85個語種的翻譯,覆蓋全球200多個國家和地區(qū),;在會議,、辦公等場景,訊飛聽見系列產(chǎn)品服務(wù)遍及全球50多個國家和地區(qū),,支持了超過40萬場會議,,觸及超過4億觀眾,;面向更多用戶,訊飛輸入法月活躍用戶超1.4億人,,日語音交互次數(shù)超10億次,。項目還構(gòu)建了自主可控的多語種智能語音技術(shù)及全球產(chǎn)業(yè)生態(tài),2017年開始承建的智能語音國家新一代人工智能開放創(chuàng)新平臺,,已聚集平臺開發(fā)者數(shù)700.7萬,,終端設(shè)備數(shù)40.5億;構(gòu)建全球多語種技術(shù)生態(tài),,目前平臺聚集海外開發(fā)者數(shù)超過40萬,。讓科技更有溫度,項目持續(xù)助力公益,,關(guān)愛弱勢群體和特殊人群,。“聽見AI的聲音”公益行動,,為聽力障礙人士提供免費的實時語音轉(zhuǎn)文字服務(wù),、捐贈免費時長,截至2024年6月,,累計捐贈時長超一億分鐘,;“三聲有幸”項目,累計服務(wù)1368萬人,,助力公益團隊創(chuàng)建無障礙應(yīng)用超3萬個,。未來:智能語音+認知大模型,用人工智能建設(shè)美好世界據(jù)了解,,因2021年,、2022年國家科學(xué)技術(shù)獎暫停的緣故,2023年度國家科學(xué)技術(shù)獎積累了大量的優(yōu)秀成果,,無論是提名環(huán)節(jié)拿指標(biāo),、初評環(huán)節(jié)過網(wǎng)評,還是答辯環(huán)節(jié),,競爭都異常激烈,,堪稱是國獎史上“最難”的一年。十年磨一劍,,科大訊飛創(chuàng)業(yè)25年來第三次獲得國家科技進步獎,,對于科大訊飛而言,是一個新開始,。在通用人工智能時代,,科大訊飛多語種智能語音關(guān)鍵技術(shù)中的創(chuàng)新和大模型技術(shù)相互補充、相互促進。今年1月30日,,科大訊飛就基于上述技術(shù)融合路線發(fā)布了星火語音大模型,,顯著超過了OpenAI的Whisper v3的語音大模型能力,Whisper v3的24個主要語種的平均識別率為82%,,而星火語音大模型達到了90%,。4月26日,科大訊飛又首發(fā)多情感超擬人合成和一句話聲音復(fù)刻能力,,使機器具備更加豐富的超擬人情緒感知和表達,。
多情感超擬人合成大模型技術(shù)可以在復(fù)雜語義理解,、長文本建模能力上進一步提升語音識別,、合成和翻譯的效果,同時基于其強大的語義理解,、知識問答,、多輪對話、多模態(tài)建模能力,,也能進一步大幅提升智能語音技術(shù)的使用場景和應(yīng)用價值,,支撐實現(xiàn)語音同傳、自動客服,、輔學(xué)答疑,、家庭醫(yī)生、虛擬員工,、陪伴機器人,、服務(wù)機器人等等未來智能產(chǎn)品創(chuàng)新。6月27日,,訊飛星火V4.0也將正式發(fā)布,,底座能力全面對標(biāo)GPT-4 Turbo,,語音大模型也將迎來全新升級,。“轉(zhuǎn)載請注明出處”
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1131138.html
溫馨提示:投資有風(fēng)險,,入市須謹慎。本資訊不作為投資理財建議,。