24日,2023年度國(guó)家科學(xué)技術(shù)獎(jiǎng)在京揭曉,,科大訊飛作為第一完成單位的《多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化》項(xiàng)目獲得國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng),。這是深度學(xué)習(xí)引發(fā)全球人工智能浪潮以來,過去十年人工智能領(lǐng)域首個(gè)國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)。關(guān)鍵技術(shù)取得四大突破語音是人類最自然便捷的溝通方式,,是智能設(shè)備人機(jī)交互的關(guān)鍵入口,,也是諸多敏感信息的重要載體。多語種智能語音技術(shù)對(duì)于支撐人機(jī)交互,、人類語言互通等需求具有重大戰(zhàn)略意義,,具有十分廣闊的產(chǎn)業(yè)前景,是當(dāng)前國(guó)際科技競(jìng)爭(zhēng)核心焦點(diǎn)之一,。持續(xù)攻關(guān)多年,,科大訊飛攻克了多個(gè)技術(shù)難題,提出了四個(gè)方面的技術(shù)創(chuàng)新:復(fù)雜語音信號(hào)解耦建模關(guān)鍵技術(shù)突破,,多語種共享建模關(guān)鍵技術(shù)突破,,語音語義聯(lián)合建模關(guān)鍵技術(shù)突破,以及國(guó)產(chǎn)異構(gòu)硬件平臺(tái)訓(xùn)練及推理加速關(guān)鍵技術(shù)突破,。語音識(shí)別研究中最具挑戰(zhàn)的是遠(yuǎn)場(chǎng),、噪聲、多人語音混疊等現(xiàn)象導(dǎo)致的“雞尾酒會(huì)”效應(yīng)典型難題,。為解決這一難題,,科大訊飛提出了多通道語音信號(hào)時(shí)空分離建模方法和多維度語音屬性解耦表征方法,實(shí)現(xiàn)語音信號(hào)中內(nèi)容,、噪聲等高度耦合的多維屬性特征解耦,,使得復(fù)雜場(chǎng)景下語音識(shí)別準(zhǔn)確率得到重大突破。為了應(yīng)對(duì)多語種技術(shù)“卡脖子”問題,,必須解決小語種智能語音系統(tǒng)構(gòu)建所面臨的知識(shí)匱乏,、訓(xùn)練數(shù)據(jù)稀缺等難題??拼笥嶏w設(shè)計(jì)了全新的多語種通用音素體系和基本語言單元,,實(shí)現(xiàn)多語種統(tǒng)一音素韻律體系的構(gòu)建,又通過基于元學(xué)習(xí)的多語種預(yù)訓(xùn)練和基于語族分組的多語種共享建?!ㄋ椎卣f,,就是將不同的小語種進(jìn)行分類,,找到同類語種的共同規(guī)律,進(jìn)行分析建模和訓(xùn)練,。復(fù)雜應(yīng)用場(chǎng)景下語音交互,、語音翻譯面臨著深層次語義理解困難、專業(yè)性不足等問題,??拼笥嶏w提出語音語義互增強(qiáng)的魯棒口語理解技術(shù),有效提升語音交互,、語音翻譯等復(fù)雜場(chǎng)景的語義理解準(zhǔn)確率,;提出多源知識(shí)增強(qiáng)的可信文本生成技術(shù),提升專有詞匯及領(lǐng)域知識(shí)引用的準(zhǔn)確率,。為解決使用國(guó)產(chǎn)芯片開展智能語音算法模型訓(xùn)練和推理面臨的性能低,、適配難等問題,科大訊飛提出的硬件親和的變長(zhǎng)輸入算子融合和聯(lián)合統(tǒng)一量化感知訓(xùn)練技術(shù),,通過軟硬件協(xié)同優(yōu)化的動(dòng)態(tài)張量算子自動(dòng)融合方法,,實(shí)現(xiàn)對(duì)語音等變長(zhǎng)輸入的訓(xùn)練性能優(yōu)化達(dá)到國(guó)際主流芯片同等水平。未來:智能語音+認(rèn)知大模型據(jù)了解,,因2021年度,、2022年度國(guó)家科學(xué)技術(shù)獎(jiǎng)暫停的緣故,2023年度國(guó)家科學(xué)技術(shù)獎(jiǎng)積累了大量的優(yōu)秀成果,,無論是提名環(huán)節(jié)拿指標(biāo),、初評(píng)環(huán)節(jié)過網(wǎng)評(píng),還是答辯環(huán)節(jié),,競(jìng)爭(zhēng)都異常激烈,。科大訊飛表示,,通用人工智能時(shí)代,,多語種智能語音關(guān)鍵技術(shù)中的創(chuàng)新和大模型技術(shù)將相互補(bǔ)充、相互促進(jìn),。語音屬性解耦,、語音信號(hào)時(shí)空分離等技術(shù)突破,可以將語音信號(hào)經(jīng)過編碼后輸入到大語言模型,,顯著提升語音大模型的效果,。今年1月30日,科大訊飛就基于相關(guān)技術(shù)融合路線發(fā)布了星火語音大模型,,顯著超過了OpenAI的Whisper v3的語音大模型能力,,Whisper v3的24個(gè)主要語種的平均識(shí)別率為82%,而星火語音大模型達(dá)到了90%。4月26日,,科大訊飛又首發(fā)多情感超擬人合成和一句話聲音復(fù)刻能力,,使機(jī)器具備更加豐富的超擬人情緒感知和表達(dá)。大模型技術(shù)可以在復(fù)雜語義理解,、長(zhǎng)文本建模能力上進(jìn)一步提升語音識(shí)別,、合成和翻譯的效果,同時(shí)基于其強(qiáng)大的語義理解,、知識(shí)問答,、多輪對(duì)話、多模態(tài)建模能力,,也能進(jìn)一步大幅提升智能語音技術(shù)的使用場(chǎng)景和應(yīng)用價(jià)值,,支撐實(shí)現(xiàn)語音同傳、自動(dòng)客服,、輔學(xué)答疑,、家庭醫(yī)生、虛擬員工,、陪伴機(jī)器人、服務(wù)機(jī)器人等等未來智能產(chǎn)品創(chuàng)新,,帶來巨大產(chǎn)業(yè)機(jī)會(huì),,加速通用人工智能時(shí)代的到來。另據(jù)透露,,就在后天(27日),,訊飛星火V4.0也將正式發(fā)布,底座能力全面對(duì)標(biāo)GPT-4 Turbo,,語音大模型也將迎來全新升級(jí),。新民晚報(bào)記者 郜陽
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1109433.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。