2023年,第二次人工智能浪潮,,因為大模型的”涌現(xiàn)”能力不期而至。
事實上,,早在2022年年中,,Midjourney、Jasper等圖片生成,、文字生成類AIGC應用就在海外走紅,。這使得,當全球大佬們還圍繞底層大模型進行”軍備競賽”時,,建立在模型基礎上的AI應用,,已在數(shù)量和類型上“百花齊放”。
36氪日前接觸到的一家公司「音律閃動」,,就是一家以AI寫歌為主營業(yè)務的公司,,當前正在打磨一款名為「歌歌AI寫歌」的AI歌曲創(chuàng)作類產品。公司高管告訴36氪,,其團隊成員長期身處音樂領域,,早在上一次AI風靡(即Alphago擊敗人類)時,就開始探索用AI生成音樂,。而2022年,,出于對AI寫歌領域的持續(xù)看好,團隊成員聚在一起成立了「音律閃動」,,希望做出全球領先的AI寫歌類產品,。
在全球范圍內,AI創(chuàng)作音樂并非新鮮事物——Google,、OpenAI,,和一些國內外創(chuàng)業(yè)公司均有涉獵。但在「音律閃動」團隊眼中,,這些產品的效果均有不足,。
公司COO王樞沛告訴36氪,目前全球范圍內的AI創(chuàng)作音樂產品可分為三種技術路線,。第一種是符號音樂生成路線,。這種方式類似NLP模型的訓練——人們需要先標注大量樂譜,,再訓練,最后形成的產品也是樂譜,。但這種方式的弊端在于,,生成的結果是樂譜而非音樂,”怎么把樂譜直接變成音樂,,目前是一個全球范圍內的難題,。”王樞沛表示。
另一種是大模型思路,,即直接用海量音頻訓練模型,,但這種方式不僅需要高昂資金,生成效果也需要提升,。王樞沛解釋,,音樂里包含的信息量很大,不僅包括歌詞,、人聲和旋律,,歌詞里還分為各種語義信息,人聲里還包括口音,、感情表現(xiàn)等,,旋律則可能由數(shù)十種樂器演奏而成,每種樂器都存在自己的演奏方式,。”一首歌里有著龐大的信息量,,比訓練ChatGPT的難度高很多。”王樞沛表示,,當前Google和OpenAI的產品采用這類路線,,但在音質、音色,、歌詞等方面還遠不及商用標準,。
還有一些初創(chuàng)公司走的是”AI剪輯”路線,就是積累龐大的歌曲素材庫,,再對這些素材打標,,接著用AI進行剪輯。”嚴格來說,,這不屬于AI的生成,。這些素材被提前準備好,再讓AI找出來進行拼接,。”王樞沛告訴36氪,,在體感上這類歌曲并不流暢,再加上維護龐大的素材庫需要花費不少成本,,整體投入產出比不高,。
對比之下,,「音律閃動」團隊認為自身產品生成的歌曲已達到商用標準。而且,,「歌歌AI寫歌」”是唯一能做到整曲生成的產品”,。對此王樞沛解釋,整曲是說,,「歌歌寫AI歌」目前已可以生成包括歌詞,、人聲、旋律在內的完整音樂,。最終,,「歌歌AI寫歌」的目標是在數(shù)秒內根據(jù)用戶Prompt生成發(fā)行級的華語流行音樂,并覆蓋全球所有類型音樂,。
他進一步告訴36氪,,「歌歌AI寫歌」采用的并不是大模型路線,而是由多個專業(yè)模型和專家系統(tǒng)組成而成的AI產品,。”拿旋律舉例,我們會有一個專有模型去做旋律的生成,。整體我們有多個專有模型,。”他介紹,這樣做既保證了效果,,算力消耗也不大,。再加上,公司此前也積累了不少歌曲的版權,,所以訓練素材較為豐富,。另外,公司還積累了把樂譜轉換成音樂的音頻算法,。王樞沛總結,,多種模型、歌曲版權以及對音樂的理解是公司的壁壘,。
未來,,「音律閃動」的目標用戶是全球所有喜歡音樂、唱歌的普通人,。公司表示,,希望達成全球超過二十億用戶在其平臺上進行生成、創(chuàng)作,、分享和版權變現(xiàn)的目標,。
當前「歌歌AI寫歌」正在打磨過程中,計劃在接下來的幾個月內面世,。”我們還會在生成的歌曲整體效果,、生成風格的廣度上持續(xù)打磨,。”王樞沛說。
團隊方面,,公司目前員工人數(shù)在20左右,。據(jù)介紹,CEO龍勇?lián)碛?0年音樂制作經驗,,曾是中國好聲音,、中國有嘻哈、TME官方合作伙伴,,參與制作運營音樂版權總播放量在百億級別,,總版稅數(shù)億。COO王樞沛是浙江大學工學/ 美國伯克利音樂學院音樂制作和吉他表演雙專業(yè)學士,,曾任網易AI音樂產品負責人,。CTO張文鉑曾任阿里巴巴技術總監(jiān),是「我要寫歌」APP創(chuàng)始人,。團隊核心成員均來自阿里,、網易、字節(jié),、Google等音樂AI相關項目,。
免責聲明:本文來自網絡收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經贊同其觀點或證實其描述,版權歸原作者所有,。轉載請注明出處:http://lequren.com/1023693.html
溫馨提示:投資有風險,,入市須謹慎。本資訊不作為投資理財建議,。