原文來源:AIGC開放社區(qū)
圖片來源:由無界 AI生成
上海AI實驗室、香港中文大學數(shù)據(jù)科學院、深圳大數(shù)據(jù)研究院聯(lián)合開源了一個名為Amphion的音頻,、音樂和語音生成工具包,。
Amphion可幫助開發(fā)人員研究文本生成音頻、音樂等與音頻相關(guān)的領(lǐng)域,,可以在一個框架內(nèi)完成,,以解決生成模型黑箱、代碼庫分散,、缺少評估指標等難題,。
Amphion包含了數(shù)據(jù)處理、通用模塊,、優(yōu)化算法等基礎(chǔ)設(shè)施,。同時針對文本到語音,、歌聲轉(zhuǎn)換,、文本到音頻生成等任務(wù),提供了特定的框架、模型和開發(fā)說明,,還內(nèi)置了各類神經(jīng)語音編解碼器和評價指標,。
尤其是對于那些剛接觸生成式AI開發(fā)的新手來說,Amphion非常容易上手,。
開源地址:https://github.com/open-mmlab/Amphion
論文地址:https://arxiv.org/abs/2312.09911
以下是Amphion包含的各種模型
文本到語音合成
Amphion內(nèi)置的文本到語音合成模型,,涵蓋從傳統(tǒng)到當前最先進的技術(shù),。例如,F(xiàn)astSpeech 2使用前饋式Transformer架構(gòu)實現(xiàn)快速語音合成;
VITS融合了條件變分自編碼器,可實現(xiàn)端到端的語音合成;Vall-E使用神經(jīng)編解碼器語言模型一鍵實現(xiàn)零資源的語音合成;NaturalSpeech 2利用潛在擴散模型合成高質(zhì)量語音,。
開發(fā)者可根據(jù)業(yè)務(wù)需求,,選擇使用不同的模型進行語音合成,。
歌聲轉(zhuǎn)換
Amphion提供了提取說話人無關(guān)表示的各類基于內(nèi)容的特征,例如,來自WeNet,、Whisper和ContentVec的預(yù)訓(xùn)練語音特征,。
同時實現(xiàn)了多種聲學解碼器架構(gòu),比如基于擴散模型、變壓器和變分自編碼器的方法,。
此外,,借助內(nèi)置的神經(jīng)語音編解碼器合成聲波輸出,,開發(fā)者可以靈活配置不同模塊,進行不同歌聲風格轉(zhuǎn)換。
文本到音頻生成
Amphion使用了主流的潛在擴散生成模型。該模型包含一個將頻譜映射到潛空間的變分自動編碼器,一個接受文本并輸出條件的T5編碼器,以及一個擴散網(wǎng)絡(luò)生成最終音頻,。
用戶只需給出音頻描述文本,就可以生成語義一致的背景音效,。
神經(jīng)語音編解碼器
Amphion提供了豐富的編解碼器算法選項,涵蓋主流的自動回歸模型,、流模型,、對抗生成模型、擴散模型等,。
例如,,WaveNet使用膨脹卷積實現(xiàn)高質(zhì)量語音合成,;HiFi-GAN應(yīng)用多尺度判別器實現(xiàn)高保真的語音重構(gòu)等,,可滿足不同業(yè)務(wù)場景的需求,。
性能評估模塊
為了幫助開發(fā)者全面評估生成語音的質(zhì)量和性能,Amphion提供了豐富的評估模塊,。
評估基頻建模、能量建模,、頻譜失真,、可懂度等語音維度,,可幫助開發(fā)者簡單直觀地比較不同模型的性能,。
開發(fā)團隊表示,,未來,,會持續(xù)更新這個工具包,加入更多與語音相關(guān)的模型,,打造成最好用的開源語音工具包之一,。
免責聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1086812.html
溫馨提示:投資有風險,入市須謹慎。本資訊不作為投資理財建議,。