作者:苗正 王兆洋
來源:硅星人
通向多模態(tài)的另一條路,。
Midjourney在沉寂九個月后推出了Midjourney V6,,這個文生圖產(chǎn)品體現(xiàn)出的更細(xì)膩的細(xì)節(jié)處理,更強(qiáng)大的語言理解能力和更加“不像AI”的圖片效果在過去幾天引發(fā)一片驚呼,。
作為一個閉源的模型產(chǎn)品,Midjourney的魔法配方并不為人所知,但就像OpenAI和Google一樣它會在產(chǎn)品更新時發(fā)布官方技術(shù)公告,,有心人還是可以從中一窺模型能力提升的技術(shù)原理。
而我們?nèi)グ橇税撬嘎兜男畔⒑?,發(fā)現(xiàn)這次更新的意義遠(yuǎn)不止于大家曬的那一張張精美的圖片上…….
Midjourney v6生成,,電影月光光心慌慌的假劇照,,圖片源自reddit
圖片模型的突破,卻靠的是語言模型能力,?
“Midjourney v6作為一個“文生圖”模型,,此次改進(jìn)的核心能力卻來自其自然語言處理能力的提升。
這首先是對提示詞理解的’跟隨能力’的提升,。在其官方文檔中,,這被稱為“prompt following”。簡單來說,,這就是指系統(tǒng)對用戶輸入的提示詞的理解和響應(yīng)能力,。通過增強(qiáng)這一能力,Midjourney現(xiàn)在能夠更好地解析復(fù)雜的提示,,無論是關(guān)鍵詞,、命令還是問題,都能夠準(zhǔn)確把握,。
Midjourney v6生成,,電影疤面煞星的假劇照,,圖片源自reddit
第二個顯著的更新是提示詞的長度。用戶現(xiàn)在可以輸入更長的提示詞,。這一方面得益于上面提到的模型跟蹤能力的增強(qiáng),,另外則依靠模型連貫性的提升,。
所謂連貫性,用一個經(jīng)典的故事就能解釋,。A問B:“下午大掃除,,你來嗎?”B說:“我去,!我不去,!”那么B的意思毫無疑問是不去,因?yàn)樯衔闹械拇髵叱浅@?,而B說的“我去,!”在這里則表示驚訝,能夠準(zhǔn)確理解這個對話,,就叫連貫性,。它確保了模型在處理用戶哪怕很復(fù)雜的指令輸入時,也能夠邏輯一致地響應(yīng),。
Midjourney v6生成,,李奧納多在網(wǎng)飛出演電視劇的海報(bào),,圖片源自reddit
這兩個自然語言能力上的改進(jìn),Midjourney具體是如何做的,?
在跟隨能力方面的改進(jìn),,主要基于三個方面:
上下文管理,它通過分析上下文關(guān)系來更準(zhǔn)確地理解用戶意圖,;序列建模,,利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和長短時記憶網(wǎng)絡(luò)(LSTM)來捕捉對話中的長期依賴;以及交互狀態(tài)跟蹤,,它持續(xù)追蹤用戶的目標(biāo),、意圖和對話狀態(tài),以確保系統(tǒng)響應(yīng)的連貫性,。
這些改進(jìn)看起來就像是一個大語言模型的進(jìn)化中在做的事情,。
Midjourney v6生成,,圣誕夜驚魂版的小丑和哈莉奎茵,圖片源自reddit
但它畢竟是個文生圖模型,,也就是語言能力和圖片能力結(jié)合的模型,,這其實(shí)也給它在提升能力時帶來了優(yōu)勢——與語言模型的對話產(chǎn)品形態(tài)總是涉及隱私與所屬的問題不同,Midjourney v6生成的圖片目前來看,全部是公共資源,。
也就是說你花錢買了服務(wù)以后,,圖片是公共的,模型會生成兩份,,你拿一份,,V6的服務(wù)器(也就是V6 discoard)也拿一份。那么Midjouney可以拿這些“實(shí)戰(zhàn)”反過來加入到自己的預(yù)訓(xùn)練大模型中,,繼續(xù)訓(xùn)練模型以提高性能,。
Midjourney v6生成,,一只貓拿著手槍,圖片源自reddit
所以這還引出一個有意思的話題,,如果文生圖因此而能夠源源不斷擁有更高質(zhì)量的數(shù)據(jù)來反哺到預(yù)訓(xùn)練階段,而數(shù)據(jù)真的成為模型訓(xùn)練的決定性因素后,,是不是文生圖模型有可能訓(xùn)練出比大語言模型更強(qiáng)的語言能力,?
在連貫性提升上其實(shí)就已經(jīng)有一點(diǎn)這個味道。對于大語言模型來說,,想要提高連貫性并不簡單,,涉及了多方面的因素。但是作為一個使用自然語言來生成圖片的模型,,事實(shí)上簡化了過程,,由于它不涉及與用戶進(jìn)行持續(xù)對話,因此無需應(yīng)用束搜索等啟發(fā)式算法,,也無需處理自然語言生成中的后處理問題,,如語法校正和風(fēng)格調(diào)整。這種簡化使得Midjourney在提高連貫性方面只需專注于核心任務(wù),,從而顯著提升了其在理解和響應(yīng)用戶輸入時的邏輯一致性,。
Midjourney v6生成,,獵魔人杰洛特與超人的結(jié)合,二者皆有同一演員亨利·卡維爾飾演,,圖片源自reddit
懂視覺的模型能有更好的文字能力,?
圖像模型卻靠語言能力突破,這其實(shí)已經(jīng)不是第一次,。此前同樣引發(fā)一陣騷動的Dalle3,,也是如此。作為OpenAI的模型,,背靠ChatGPT,,語言能力自然更強(qiáng),。
在對比了兩者后我發(fā)現(xiàn)V6在語言理解上其實(shí)還是較DALL·E有一定差距。最明顯的地方就在于適應(yīng)性上,。適應(yīng)性代表系統(tǒng)在能適應(yīng)不同用戶的語言風(fēng)格和表達(dá)方式,,以及在面對新的或未見過的情況時保持響應(yīng)連貫性的能力??赡苁荄ALL·E背靠ChatGPT,,所以在對自然語言各方面的性能上會更優(yōu)異一些。
但Midjourney似乎也在瞄著ChatGPT為代表的語言模型的能力來進(jìn)化,。在此次的更新中,,V6增加的另一個非常重要的能力,也與語言有關(guān),。Midjourney稱,,其現(xiàn)在擁有了文本繪制能力,雖然依然較弱,。
對于人工智能繪圖來說,,能繪制文本無疑是一項(xiàng)重大進(jìn)步,。
文字不再是亂碼,。圖源:X.com
這個能力并非像看起來那樣,直接來自模型里大語言模型的模塊,。在官方更新里,,文本繪制能力后緊隨的是圖像放大功能的更新。它們原理比較復(fù)雜,但本質(zhì)其實(shí)是同一個問題,。
圖像生成模型在訓(xùn)練的時候所用的數(shù)據(jù),,是一些通過泛化和模糊處理的圖像內(nèi)容。我們都知道,,分辨率越高的圖片數(shù)據(jù)量越大,,反之,越模糊越泛化的圖片它的數(shù)據(jù)量就越小,。人工智能理解圖片的方式和人類完全不一樣,,他們是按照統(tǒng)計(jì)學(xué)的一個概念叫做“模式識別”,通過圖片中的特征來理解,。使用泛化和模糊的圖片好處在于,,小數(shù)據(jù)量的圖片讀取速度快,訓(xùn)練時間就短,。但想要用這種訓(xùn)練方式來理解文字是非常難的,,因?yàn)槲淖质且环N符號,這種泛化處理對于圖像中的文字尤其不利,,即使是微小的變形或模糊都可能導(dǎo)致文字難以辨認(rèn),。同時,訓(xùn)練所使用的圖像分辨率很低,,那么生成圖片時,分辨率也不會高到哪里去,。
圖片上的文字與圖像整體風(fēng)格融合,。圖片來源:X.com
而Midjourney的訓(xùn)練方法,,其實(shí)就是在訓(xùn)練它的圖像“放大”能力。它所使用的模型叫做去噪擴(kuò)散概率模型(denoising diffusion probabilistic models),,這種模型通過模擬從噪聲中提取信息的過程來生成清晰的圖像,。想象一下,就像我們用軟件修復(fù)模糊的老照片,,Midjourney的模型也能夠從模糊的圖像中“學(xué)習(xí)”到清晰的細(xì)節(jié),。
圖片來源:X.com
也就是說,,這是像Midjourney這樣的圖像模型一直在做的事情,訓(xùn)練越久優(yōu)化越久它的圖像“放大”能力就越強(qiáng),,也就會逐漸產(chǎn)生關(guān)于文字的生成能力,。
在直覺上,這種能力肯定不如“純粹”的語言模型的語言能力,但一些研究已經(jīng)在給出不同的指向,,在多模態(tài)領(lǐng)域很重要的模型VLMO的論文里就曾提到一個有意思的結(jié)論,,當(dāng)你完全拿一個在視覺數(shù)據(jù)上訓(xùn)練好的模型,可以直接對文本數(shù)據(jù)建模,,甚至不需要微調(diào)就可以有很強(qiáng)的文本生成能力,。但反過來用語言訓(xùn)練在視覺上生成,則差很多,。
這也許就是視覺想對文字說的話,。圖源:X.com
這是一種很奇怪也很有意思的現(xiàn)象,,這一次V6似乎把它再一次輕微的展示出來了。而更重要的是在今天多模態(tài)大模型已經(jīng)成為未來最重要的趨勢時,,一個圖像能力為主的模型產(chǎn)生文字能力給了走向多模態(tài)一個新的思路,。
世界更精彩了。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1084758.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。