人們擔(dān)心人工智能“變壞”
作者/ IT時報記者 沈毅斌
編輯/ 錢立富 孫妍
“Let’s be happy and that’s it,,don’t overthink, overthinking is pointless, it’s part of being human.”郭德綱面對鏡頭,,用流暢的英文回答采訪問題,從音色到口型,、動作都看不出瑕疵,。這就是自AI孫燕姿后,AIGC帶來的“新玩法”,。
近日,,郭德綱英文說相聲、泰勒中文采訪,、馬保國日語配音等大量AI制作的明星語言翻譯視頻在抖音,、B站等平臺爆火。與之前AI孫燕姿不同的是,,這次使用的是公開視頻,,不僅做到了聲音克隆,連口型,、字幕,、動作的配合都達(dá)到一致。
在很多人對這一“新玩法”興致盎然的同時,一些播音行業(yè)從業(yè)者卻感受到危機,?!半m然不至于很快被取代,但隨著AI語音技術(shù)的發(fā)展,,類似AI讀書這樣的工作可能就不需要真人了,。”播音從業(yè)者小堯(化名)表示,。
01“我們可能被取代”
如今,,AI語音技術(shù)已經(jīng)在各大App上廣泛使用,除了喜馬拉雅,、蜻蜓FM等之外,,很多讀書軟件也都具備聽書功能。
《IT時報》記者打開微信讀書App,,大部分書籍已具備聽書功能,,用戶可以選擇AI男聲、AI女聲,、AI中年男聲等多種音色,。若聽一些歷史類、經(jīng)濟(jì)類等不需要太多感情色彩的書籍,,AI聲音和真人聲音聽起來基本沒有差別,。
這也是小堯最擔(dān)憂的地方,。他告訴記者,,除了日常體育解說工作外,自己平時還會接一些兼職,,例如廣告配音,、有聲書平臺讀書等。如在廣告配音中,,經(jīng)驗豐富的播音員每個字能拿到0.5~1元的報酬,,而新人播音員每個字只能拿到0.1元,小堯錄一分鐘200字的廣告能拿到50元左右,。
有聲自媒體平臺則按照小時計算報酬,,新人播音員每小時能拿到80元左右,資深播音員或與平臺達(dá)成合作的播音員,,每小時可以拿到200元左右報酬,。此外,平臺還會根據(jù)播音員節(jié)目的收聽率,、訂閱量,、推廣度等進(jìn)行獎勵,。
針對AI郭德綱背后運用的HeyGen工具,UP主“賽博法師”接受媒體采訪時透露,,HeyGen分為年付和月付,,月付最低29美元,折合人民幣200元左右,,其中包含15分鐘生成時間,,生成時間越長,價格越高,。另一家制作AI換聲的公司的客服人員介紹,,AI換聲視頻價格為每秒3元,最少30秒,。若以30秒說60個字來計算,,那么一個字的價格需要1.5元。
對比之下,,同樣的價格人力能配音更長時間,,成本也相對較低。但小堯認(rèn)為,,“當(dāng)AI技術(shù)成本比人力成本低時,,我們很可能被取代,尤其對于新人播音員,?!?/strong>
蜻蜓FM相關(guān)負(fù)責(zé)人接受媒體采訪時也表示,,AI語音是整個行業(yè)都須順應(yīng)的技術(shù)潮流,,大規(guī)模應(yīng)用只是時間問題。目前,,業(yè)內(nèi)在開發(fā)更加成熟的AI語音技術(shù),,配合其深度學(xué)習(xí)能力,加入情緒,、語氣,、音色等參數(shù),更加細(xì)膩的聲音表現(xiàn)將會帶到演播中,。
因此,,解說工作成為小堯今后重點發(fā)展方向。相比配音,、讀書等照著稿子讀的播音工作,,解說需要根據(jù)現(xiàn)場情況及時做出反應(yīng)。尤其是在體育解說中,,賽場形勢瞬息萬變,,解說員不僅要有獨家風(fēng)格體現(xiàn)專業(yè)性,,還需要調(diào)動觀眾的情緒?!斑@樣以情緒情感為主的播音工作是AI永遠(yuǎn)無法取代的,。”小堯說道,。
“AI語音一直是我們的反面教材,,我也不鼓勵學(xué)生去使用?!鄙虾sw育大學(xué)體育解說講師李人杰表示,,在任何行業(yè),AI都可能替代簡單重復(fù)的工作,。在他看來,,播音工作是播音員通過理解將文字稿以聲音形式呈現(xiàn)給聽眾,對每個字的重音,、情感等細(xì)節(jié)處理就是二次創(chuàng)造的過程,。因此,想要不被取代,,就需要在配音或讀書工作中注入解說員更多的情感,,體現(xiàn)出創(chuàng)造性和藝術(shù)性。
02 能檢測出70%“AI郭德綱”
除了聲音克隆外,,讓網(wǎng)友們最為震驚的還是視頻中郭德綱說英語時,,口型與字幕的完美契合。
“這是口型驅(qū)動AI合成技術(shù),,屬于AI合成技術(shù)下的一條分支,,底層邏輯是一樣的?!北本┤鹑R智慧科技有限公司高級產(chǎn)品經(jīng)理張?zhí)燹雀嬖V《IT時報》記者,,口型驅(qū)動AI技術(shù)一般會用到兩種方案,一種方案相對傳統(tǒng),,即AI尋找語句發(fā)音中的元音字母,,將口型與元音發(fā)音進(jìn)行映射,最終接起來實現(xiàn)平滑轉(zhuǎn)換,;另一種則是從深度學(xué)習(xí)角度出發(fā),,AI會通過對語音和文本來計算出各個音節(jié)所對應(yīng)口型特征的關(guān)鍵點,生成每一幀的圖像后再合成視頻,。
其實,口型驅(qū)動技術(shù)并不是今年的“新品”,,許多外國影片引入國內(nèi)時,,會讓角色對應(yīng)中文口型,。如2015年上映的《功夫熊貓》,主創(chuàng)團(tuán)隊就透露,,影片按照中文臺詞為每個角色都制作了相應(yīng)的口型,。2019年,國外多個研究團(tuán)隊還推出了一套算法,,能捕捉人物講話時嘴部動作,,并生成新視頻。
隨著AI技術(shù)越來越成熟,,合成視頻越來越難辨真假,,“對抗AI”的檢測工具就變得十分重要。張?zhí)燹冉榻B,,從此前的AI換臉來看,,瑞萊Deep Real檢測平臺在檢測過程中主要是對比臉部五官、發(fā)型,、背景等較為直觀的特征,,其中對戴眼鏡替換成不戴眼鏡的人臉檢測較為明顯。而對于口型驅(qū)動AI技術(shù),,注重的是牙齒,、嘴唇運動等局部檢測,更多細(xì)節(jié)也意味著檢測面臨新挑戰(zhàn),。
“我們測試了一下,,目前瑞萊Deep Real檢測平臺對口型驅(qū)動AI的檢測成功率大概在70%。”張?zhí)燹缺硎?,想要攻破最后?0%還需要通過大量樣本測試,,針對性地去尋找“AI郭德綱”獨特的軌道特征。
03 全球需要共治AI
11月7日,,《IT時報》記者登入HeyGen時發(fā)現(xiàn),,網(wǎng)頁已經(jīng)打不開了。據(jù)其他使用者介紹,,免費試用的用戶可以上傳一段不超過1GB大小的視頻,但上傳視頻時已有3萬多人在排隊,,想要跳過排隊就只能付費,。
上海大邦律師事務(wù)所高級合伙人、知識產(chǎn)權(quán)律師游云庭曾發(fā)文表示,,Heygen提供的是面向用戶的一對一視頻翻譯轉(zhuǎn)換服務(wù),,網(wǎng)站并不會向公眾發(fā)布轉(zhuǎn)換后的內(nèi)容,所以Heygen的知識產(chǎn)權(quán)侵權(quán)風(fēng)險較小,。但用戶用Heygen將他人的講話視頻生成了翻譯后的內(nèi)容發(fā)布到網(wǎng)上,,就需要獲得授權(quán),。比如某人上傳了郭德綱的相聲視頻,就需要取得郭德綱的肖像權(quán),、聲音權(quán)的授權(quán),,相聲視頻的錄像制作者權(quán)和相聲文字內(nèi)容版權(quán)授權(quán),缺少任何一個都可能涉嫌侵權(quán),。
不只是侵權(quán)風(fēng)險,,生成式人工智能的快速發(fā)展也讓人們產(chǎn)生“危機感”,。11月1日,在英國召開的全球首屆人工智能安全峰會更是體現(xiàn)出世界各國對AI治理的重視,。在峰會上,,全球28個國家和歐盟一致認(rèn)為,AI對人類構(gòu)成潛在的災(zāi)難性風(fēng)險,,并發(fā)布全球第一份針對人工智能新興技術(shù)的國際性聲明《布萊切利宣言》,,旨在關(guān)注對未來強大人工智能模型構(gòu)成人類生存威脅的擔(dān)憂,以及對人工智能當(dāng)前增強有害或偏見信息的擔(dān)憂,。
馬斯克在這次峰會上表示:“人工智能很可能成為一股向善的力量,,但它變壞的可能性并不是零?!?/p>
中國科技部副部長吳朝暉表示,,發(fā)展人工智能應(yīng)當(dāng)積極倡導(dǎo)以人為本,加強技術(shù)風(fēng)險管控,,在相互尊重,、平等互利的原則基礎(chǔ)上,鼓勵各方協(xié)同共治,。
排版/ 季嘉穎
來源/《IT時報》公眾號vittimes
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1079836.html
溫馨提示:投資有風(fēng)險,,入市須謹(jǐn)慎。本資訊不作為投資理財建議,。