国产香蕉视频,欧美又粗又大XXXXBBBB疯狂

作者：苗正王兆洋

來(lái)源：硅星人

通向多模態(tài)的另一條路,。

Midjourney在沉寂九個(gè)月后推出了Midjourney V6,，這個(gè)文生圖產(chǎn)品體現(xiàn)出的更細(xì)膩的細(xì)節(jié)處理，更強(qiáng)大的語(yǔ)言理解能力和更加“不像AI”的圖片效果在過(guò)去幾天引發(fā)一片驚呼,。

作為一個(gè)閉源的模型產(chǎn)品,，Midjourney的魔法配方并不為人所知，但就像OpenAI和Google一樣它會(huì)在產(chǎn)品更新時(shí)發(fā)布官方技術(shù)公告,，有心人還是可以從中一窺模型能力提升的技術(shù)原理,。

而我們?nèi)グ橇税撬嘎兜男畔⒑螅l(fā)現(xiàn)這次更新的意義遠(yuǎn)不止于大家曬的那一張張精美的圖片上…….

Midjourney v6生成，電影月光光心慌慌的假劇照,，圖片源自reddit

圖片模型的突破,，卻靠的是語(yǔ)言模型能力？

“Midjourney v6作為一個(gè)“文生圖”模型,，此次改進(jìn)的核心能力卻來(lái)自其自然語(yǔ)言處理能力的提升,。

這首先是對(duì)提示詞理解的’跟隨能力’的提升。在其官方文檔中,，這被稱為“prompt following”,。簡(jiǎn)單來(lái)說(shuō)，這就是指系統(tǒng)對(duì)用戶輸入的提示詞的理解和響應(yīng)能力,。通過(guò)增強(qiáng)這一能力,，Midjourney現(xiàn)在能夠更好地解析復(fù)雜的提示，無(wú)論是關(guān)鍵詞,、命令還是問(wèn)題,，都能夠準(zhǔn)確把握,。

Midjourney v6生成,，電影疤面煞星的假劇照，圖片源自reddit

第二個(gè)顯著的更新是提示詞的長(zhǎng)度,。用戶現(xiàn)在可以輸入更長(zhǎng)的提示詞,。這一方面得益于上面提到的模型跟蹤能力的增強(qiáng),，另外則依靠模型連貫性的提升。

所謂連貫性,，用一個(gè)經(jīng)典的故事就能解釋,。A問(wèn)B：“下午大掃除，你來(lái)嗎,？”B說(shuō)：“我去,！我不去！”那么B的意思毫無(wú)疑問(wèn)是不去,，因?yàn)樯衔闹械拇髵叱浅＠?，而B(niǎo)說(shuō)的“我去！”在這里則表示驚訝,，能夠準(zhǔn)確理解這個(gè)對(duì)話,，就叫連貫性。它確保了模型在處理用戶哪怕很復(fù)雜的指令輸入時(shí),，也能夠邏輯一致地響應(yīng),。

Midjourney v6生成,，李?yuàn)W納多在網(wǎng)飛出演電視劇的海報(bào)，圖片源自reddit

這兩個(gè)自然語(yǔ)言能力上的改進(jìn),，Midjourney具體是如何做的,？

在跟隨能力方面的改進(jìn)，主要基于三個(gè)方面：

上下文管理,，它通過(guò)分析上下文關(guān)系來(lái)更準(zhǔn)確地理解用戶意圖,；序列建模，利用循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（LSTM）來(lái)捕捉對(duì)話中的長(zhǎng)期依賴,；以及交互狀態(tài)跟蹤,，它持續(xù)追蹤用戶的目標(biāo),、意圖和對(duì)話狀態(tài)，以確保系統(tǒng)響應(yīng)的連貫性,。

這些改進(jìn)看起來(lái)就像是一個(gè)大語(yǔ)言模型的進(jìn)化中在做的事情,。

Midjourney v6生成,，圣誕夜驚魂版的小丑和哈莉奎茵，圖片源自reddit

但它畢竟是個(gè)文生圖模型,，也就是語(yǔ)言能力和圖片能力結(jié)合的模型,，這其實(shí)也給它在提升能力時(shí)帶來(lái)了優(yōu)勢(shì)——與語(yǔ)言模型的對(duì)話產(chǎn)品形態(tài)總是涉及隱私與所屬的問(wèn)題不同，Midjourney v6生成的圖片目前來(lái)看,，全部是公共資源,。

也就是說(shuō)你花錢(qián)買(mǎi)了服務(wù)以后，圖片是公共的,，模型會(huì)生成兩份，你拿一份,，V6的服務(wù)器（也就是V6 discoard）也拿一份。那么Midjouney可以拿這些“實(shí)戰(zhàn)”反過(guò)來(lái)加入到自己的預(yù)訓(xùn)練大模型中,，繼續(xù)訓(xùn)練模型以提高性能,。

Midjourney v6生成,，一只貓拿著手槍，圖片源自reddit

所以這還引出一個(gè)有意思的話題,，如果文生圖因此而能夠源源不斷擁有更高質(zhì)量的數(shù)據(jù)來(lái)反哺到預(yù)訓(xùn)練階段,，而數(shù)據(jù)真的成為模型訓(xùn)練的決定性因素后，是不是文生圖模型有可能訓(xùn)練出比大語(yǔ)言模型更強(qiáng)的語(yǔ)言能力,？

在連貫性提升上其實(shí)就已經(jīng)有一點(diǎn)這個(gè)味道,。對(duì)于大語(yǔ)言模型來(lái)說(shuō)，想要提高連貫性并不簡(jiǎn)單,，涉及了多方面的因素,。但是作為一個(gè)使用自然語(yǔ)言來(lái)生成圖片的模型，事實(shí)上簡(jiǎn)化了過(guò)程,，由于它不涉及與用戶進(jìn)行持續(xù)對(duì)話,，因此無(wú)需應(yīng)用束搜索等啟發(fā)式算法，也無(wú)需處理自然語(yǔ)言生成中的后處理問(wèn)題,，如語(yǔ)法校正和風(fēng)格調(diào)整,。這種簡(jiǎn)化使得Midjourney在提高連貫性方面只需專注于核心任務(wù),，從而顯著提升了其在理解和響應(yīng)用戶輸入時(shí)的邏輯一致性。

Midjourney v6生成，獵魔人杰洛特與超人的結(jié)合,，二者皆有同一演員亨利·卡維爾飾演,，圖片源自reddit

懂視覺(jué)的模型能有更好的文字能力？

圖像模型卻靠語(yǔ)言能力突破,，這其實(shí)已經(jīng)不是第一次,。此前同樣引發(fā)一陣騷動(dòng)的Dalle3，也是如此,。作為OpenAI的模型,，背靠ChatGPT，語(yǔ)言能力自然更強(qiáng),。

在對(duì)比了兩者后我發(fā)現(xiàn)V6在語(yǔ)言理解上其實(shí)還是較DALL·E有一定差距,。最明顯的地方就在于適應(yīng)性上。適應(yīng)性代表系統(tǒng)在能適應(yīng)不同用戶的語(yǔ)言風(fēng)格和表達(dá)方式,，以及在面對(duì)新的或未見(jiàn)過(guò)的情況時(shí)保持響應(yīng)連貫性的能力,。可能是DALL·E背靠ChatGPT,，所以在對(duì)自然語(yǔ)言各方面的性能上會(huì)更優(yōu)異一些,。

但Midjourney似乎也在瞄著ChatGPT為代表的語(yǔ)言模型的能力來(lái)進(jìn)化。在此次的更新中,，V6增加的另一個(gè)非常重要的能力,，也與語(yǔ)言有關(guān)。Midjourney稱,，其現(xiàn)在擁有了文本繪制能力,，雖然依然較弱。

對(duì)于人工智能繪圖來(lái)說(shuō),，能繪制文本無(wú)疑是一項(xiàng)重大進(jìn)步。

文字不再是亂碼。圖源：X.com

這個(gè)能力并非像看起來(lái)那樣,，直接來(lái)自模型里大語(yǔ)言模型的模塊,。在官方更新里，文本繪制能力后緊隨的是圖像放大功能的更新,。它們?cè)肀容^復(fù)雜，但本質(zhì)其實(shí)是同一個(gè)問(wèn)題,。

圖像生成模型在訓(xùn)練的時(shí)候所用的數(shù)據(jù)，是一些通過(guò)泛化和模糊處理的圖像內(nèi)容,。我們都知道,，分辨率越高的圖片數(shù)據(jù)量越大，反之,，越模糊越泛化的圖片它的數(shù)據(jù)量就越小,。人工智能理解圖片的方式和人類完全不一樣，他們是按照統(tǒng)計(jì)學(xué)的一個(gè)概念叫做“模式識(shí)別”,，通過(guò)圖片中的特征來(lái)理解。使用泛化和模糊的圖片好處在于,，小數(shù)據(jù)量的圖片讀取速度快，訓(xùn)練時(shí)間就短,。但想要用這種訓(xùn)練方式來(lái)理解文字是非常難的，因?yàn)槲淖质且环N符號(hào),，這種泛化處理對(duì)于圖像中的文字尤其不利,，即使是微小的變形或模糊都可能導(dǎo)致文字難以辨認(rèn),。同時(shí),，訓(xùn)練所使用的圖像分辨率很低,，那么生成圖片時(shí)，分辨率也不會(huì)高到哪里去,。

圖片上的文字與圖像整體風(fēng)格融合,。圖片來(lái)源：X.com

而Midjourney的訓(xùn)練方法,，其實(shí)就是在訓(xùn)練它的圖像“放大”能力。它所使用的模型叫做去噪擴(kuò)散概率模型（denoising diffusion probabilistic models）,，這種模型通過(guò)模擬從噪聲中提取信息的過(guò)程來(lái)生成清晰的圖像,。想象一下，就像我們用軟件修復(fù)模糊的老照片,，Midjourney的模型也能夠從模糊的圖像中“學(xué)習(xí)”到清晰的細(xì)節(jié),。

圖片來(lái)源：X.com

也就是說(shuō),，這是像Midjourney這樣的圖像模型一直在做的事情，訓(xùn)練越久優(yōu)化越久它的圖像“放大”能力就越強(qiáng),，也就會(huì)逐漸產(chǎn)生關(guān)于文字的生成能力,。

在直覺(jué)上,，這種能力肯定不如“純粹”的語(yǔ)言模型的語(yǔ)言能力,，但一些研究已經(jīng)在給出不同的指向，在多模態(tài)領(lǐng)域很重要的模型VLMO的論文里就曾提到一個(gè)有意思的結(jié)論,，當(dāng)你完全拿一個(gè)在視覺(jué)數(shù)據(jù)上訓(xùn)練好的模型,，可以直接對(duì)文本數(shù)據(jù)建模,，甚至不需要微調(diào)就可以有很強(qiáng)的文本生成能力。但反過(guò)來(lái)用語(yǔ)言訓(xùn)練在視覺(jué)上生成,，則差很多,。

這也許就是視覺(jué)想對(duì)文字說(shuō)的話,。圖源：X.com

這是一種很奇怪也很有意思的現(xiàn)象，這一次V6似乎把它再一次輕微的展示出來(lái)了,。而更重要的是在今天多模態(tài)大模型已經(jīng)成為未來(lái)最重要的趨勢(shì)時(shí),，一個(gè)圖像能力為主的模型產(chǎn)生文字能力給了走向多模態(tài)一個(gè)新的思路。

世界更精彩了,。

免責(zé)聲明：本文來(lái)自網(wǎng)絡(luò)收錄或投稿,，觀點(diǎn)僅代表作者本人，不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,，版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處：http://lequren.com/1084758.html
溫馨提示：投資有風(fēng)險(xiǎn)，入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。

Midjourney V6刷屏,，但它最可怕的地方居然不是那些神圖？ – AI新智界

圖片模型的突破,，卻靠的是語(yǔ)言模型能力？

懂視覺(jué)的模型能有更好的文字能力？

相關(guān)推薦