A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

上海AI實驗室等開源,,音頻,、音樂統(tǒng)一開發(fā)工具包Amphion – AI新智界

原文來源:AIGC開放社區(qū)

上海AI實驗室等開源,,音頻,、音樂統(tǒng)一開發(fā)工具包Amphion – AI新智界

圖片來源:由無界 AI生成

上海AI實驗室、香港中文大學數(shù)據(jù)科學院、深圳大數(shù)據(jù)研究院聯(lián)合開源了一個名為Amphion的音頻,、音樂和語音生成工具包,。

Amphion可幫助開發(fā)人員研究文本生成音頻、音樂等與音頻相關(guān)的領(lǐng)域,,可以在一個框架內(nèi)完成,,以解決生成模型黑箱、代碼庫分散,、缺少評估指標等難題,。

Amphion包含了數(shù)據(jù)處理、通用模塊,、優(yōu)化算法等基礎(chǔ)設(shè)施,。同時針對文本到語音,、歌聲轉(zhuǎn)換,、文本到音頻生成等任務(wù),提供了特定的框架、模型和開發(fā)說明,,還內(nèi)置了各類神經(jīng)語音編解碼器和評價指標,。

尤其是對于那些剛接觸生成式AI開發(fā)的新手來說,Amphion非常容易上手,。

開源地址:https://github.com/open-mmlab/Amphion

論文地址:https://arxiv.org/abs/2312.09911

上海AI實驗室等開源,,音頻、音樂統(tǒng)一開發(fā)工具包Amphion – AI新智界

以下是Amphion包含的各種模型

文本到語音合成

Amphion內(nèi)置的文本到語音合成模型,,涵蓋從傳統(tǒng)到當前最先進的技術(shù),。例如,F(xiàn)astSpeech 2使用前饋式Transformer架構(gòu)實現(xiàn)快速語音合成;

VITS融合了條件變分自編碼器,可實現(xiàn)端到端的語音合成;Vall-E使用神經(jīng)編解碼器語言模型一鍵實現(xiàn)零資源的語音合成;NaturalSpeech 2利用潛在擴散模型合成高質(zhì)量語音,。

上海AI實驗室等開源,,音頻、音樂統(tǒng)一開發(fā)工具包Amphion – AI新智界

開發(fā)者可根據(jù)業(yè)務(wù)需求,,選擇使用不同的模型進行語音合成,。

歌聲轉(zhuǎn)換

Amphion提供了提取說話人無關(guān)表示的各類基于內(nèi)容的特征,例如,來自WeNet,、Whisper和ContentVec的預(yù)訓(xùn)練語音特征,。

同時實現(xiàn)了多種聲學解碼器架構(gòu),比如基于擴散模型、變壓器和變分自編碼器的方法,。

上海AI實驗室等開源,,音頻、音樂統(tǒng)一開發(fā)工具包Amphion – AI新智界

此外,,借助內(nèi)置的神經(jīng)語音編解碼器合成聲波輸出,,開發(fā)者可以靈活配置不同模塊,進行不同歌聲風格轉(zhuǎn)換。

文本到音頻生成

Amphion使用了主流的潛在擴散生成模型。該模型包含一個將頻譜映射到潛空間的變分自動編碼器,一個接受文本并輸出條件的T5編碼器,以及一個擴散網(wǎng)絡(luò)生成最終音頻,。

用戶只需給出音頻描述文本,就可以生成語義一致的背景音效,。

神經(jīng)語音編解碼器

Amphion提供了豐富的編解碼器算法選項,涵蓋主流的自動回歸模型,、流模型,、對抗生成模型、擴散模型等,。

上海AI實驗室等開源,音頻,、音樂統(tǒng)一開發(fā)工具包Amphion – AI新智界

例如,,WaveNet使用膨脹卷積實現(xiàn)高質(zhì)量語音合成,;HiFi-GAN應(yīng)用多尺度判別器實現(xiàn)高保真的語音重構(gòu)等,,可滿足不同業(yè)務(wù)場景的需求,。

性能評估模塊

為了幫助開發(fā)者全面評估生成語音的質(zhì)量和性能,Amphion提供了豐富的評估模塊,。

評估基頻建模、能量建模,、頻譜失真,、可懂度等語音維度,,可幫助開發(fā)者簡單直觀地比較不同模型的性能,。

上海AI實驗室等開源,,音頻、音樂統(tǒng)一開發(fā)工具包Amphion – AI新智界

開發(fā)團隊表示,,未來,,會持續(xù)更新這個工具包,加入更多與語音相關(guān)的模型,,打造成最好用的開源語音工具包之一,。

免責聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1086812.html
溫馨提示:投資有風險,入市須謹慎。本資訊不作為投資理財建議,。

(0)
AIGC開放社區(qū)的頭像AIGC開放社區(qū)
上一篇 2024年1月11日 上午10:21
下一篇 2024年1月11日 上午11:10
198搶自鏈數(shù)字人

相關(guān)推薦