A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

上海AI實(shí)驗(yàn)室等開源,,音頻,、音樂(lè)統(tǒng)一開發(fā)工具包Amphion – AI新智界

原文來(lái)源:AIGC開放社區(qū)

上海AI實(shí)驗(yàn)室等開源,音頻,、音樂(lè)統(tǒng)一開發(fā)工具包Amphion – AI新智界

圖片來(lái)源:由無(wú)界 AI生成

上海AI實(shí)驗(yàn)室,、香港中文大學(xué)數(shù)據(jù)科學(xué)院,、深圳大數(shù)據(jù)研究院聯(lián)合開源了一個(gè)名為Amphion的音頻、音樂(lè)和語(yǔ)音生成工具包,。

Amphion可幫助開發(fā)人員研究文本生成音頻,、音樂(lè)等與音頻相關(guān)的領(lǐng)域,可以在一個(gè)框架內(nèi)完成,,以解決生成模型黑箱,、代碼庫(kù)分散、缺少評(píng)估指標(biāo)等難題,。

Amphion包含了數(shù)據(jù)處理、通用模塊,、優(yōu)化算法等基礎(chǔ)設(shè)施,。同時(shí)針對(duì)文本到語(yǔ)音,、歌聲轉(zhuǎn)換、文本到音頻生成等任務(wù),提供了特定的框架,、模型和開發(fā)說(shuō)明,,還內(nèi)置了各類神經(jīng)語(yǔ)音編解碼器和評(píng)價(jià)指標(biāo)。

尤其是對(duì)于那些剛接觸生成式AI開發(fā)的新手來(lái)說(shuō),,Amphion非常容易上手,。

開源地址:https://github.com/open-mmlab/Amphion

論文地址:https://arxiv.org/abs/2312.09911

上海AI實(shí)驗(yàn)室等開源,音頻,、音樂(lè)統(tǒng)一開發(fā)工具包Amphion – AI新智界

以下是Amphion包含的各種模型

文本到語(yǔ)音合成

Amphion內(nèi)置的文本到語(yǔ)音合成模型,,涵蓋從傳統(tǒng)到當(dāng)前最先進(jìn)的技術(shù)。例如,,F(xiàn)astSpeech 2使用前饋式Transformer架構(gòu)實(shí)現(xiàn)快速語(yǔ)音合成;

VITS融合了條件變分自編碼器,可實(shí)現(xiàn)端到端的語(yǔ)音合成;Vall-E使用神經(jīng)編解碼器語(yǔ)言模型一鍵實(shí)現(xiàn)零資源的語(yǔ)音合成;NaturalSpeech 2利用潛在擴(kuò)散模型合成高質(zhì)量語(yǔ)音,。

上海AI實(shí)驗(yàn)室等開源,音頻,、音樂(lè)統(tǒng)一開發(fā)工具包Amphion – AI新智界

開發(fā)者可根據(jù)業(yè)務(wù)需求,,選擇使用不同的模型進(jìn)行語(yǔ)音合成。

歌聲轉(zhuǎn)換

Amphion提供了提取說(shuō)話人無(wú)關(guān)表示的各類基于內(nèi)容的特征,例如,,來(lái)自WeNet,、Whisper和ContentVec的預(yù)訓(xùn)練語(yǔ)音特征。

同時(shí)實(shí)現(xiàn)了多種聲學(xué)解碼器架構(gòu),比如基于擴(kuò)散模型,、變壓器和變分自編碼器的方法,。

上海AI實(shí)驗(yàn)室等開源,音頻,、音樂(lè)統(tǒng)一開發(fā)工具包Amphion – AI新智界

此外,,借助內(nèi)置的神經(jīng)語(yǔ)音編解碼器合成聲波輸出,開發(fā)者可以靈活配置不同模塊,進(jìn)行不同歌聲風(fēng)格轉(zhuǎn)換,。

文本到音頻生成

Amphion使用了主流的潛在擴(kuò)散生成模型,。該模型包含一個(gè)將頻譜映射到潛空間的變分自動(dòng)編碼器,一個(gè)接受文本并輸出條件的T5編碼器,以及一個(gè)擴(kuò)散網(wǎng)絡(luò)生成最終音頻。

用戶只需給出音頻描述文本,就可以生成語(yǔ)義一致的背景音效,。

神經(jīng)語(yǔ)音編解碼器

Amphion提供了豐富的編解碼器算法選項(xiàng),涵蓋主流的自動(dòng)回歸模型,、流模型、對(duì)抗生成模型,、擴(kuò)散模型等,。

上海AI實(shí)驗(yàn)室等開源,音頻,、音樂(lè)統(tǒng)一開發(fā)工具包Amphion – AI新智界

例如,,WaveNet使用膨脹卷積實(shí)現(xiàn)高質(zhì)量語(yǔ)音合成;HiFi-GAN應(yīng)用多尺度判別器實(shí)現(xiàn)高保真的語(yǔ)音重構(gòu)等,可滿足不同業(yè)務(wù)場(chǎng)景的需求,。

性能評(píng)估模塊

為了幫助開發(fā)者全面評(píng)估生成語(yǔ)音的質(zhì)量和性能,,Amphion提供了豐富的評(píng)估模塊。

評(píng)估基頻建模,、能量建模,、頻譜失真、可懂度等語(yǔ)音維度,,可幫助開發(fā)者簡(jiǎn)單直觀地比較不同模型的性能,。

上海AI實(shí)驗(yàn)室等開源,音頻,、音樂(lè)統(tǒng)一開發(fā)工具包Amphion – AI新智界

開發(fā)團(tuán)隊(duì)表示,,未來(lái),會(huì)持續(xù)更新這個(gè)工具包,,加入更多與語(yǔ)音相關(guān)的模型,,打造成最好用的開源語(yǔ)音工具包之一。

免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1086812.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。

(0)
AIGC開放社區(qū)的頭像AIGC開放社區(qū)
上一篇 2024年1月11日 上午10:21
下一篇 2024年1月11日 上午11:10
198搶自鏈數(shù)字人

相關(guān)推薦