A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

Midjourney V6刷屏,,但它最可怕的地方居然不是那些神圖? – AI新智界

作者:苗正 王兆洋

來(lái)源:硅星人

通向多模態(tài)的另一條路,。

Midjourney在沉寂九個(gè)月后推出了Midjourney V6,,這個(gè)文生圖產(chǎn)品體現(xiàn)出的更細(xì)膩的細(xì)節(jié)處理,更強(qiáng)大的語(yǔ)言理解能力和更加“不像AI”的圖片效果在過(guò)去幾天引發(fā)一片驚呼,。

作為一個(gè)閉源的模型產(chǎn)品,,Midjourney的魔法配方并不為人所知,但就像OpenAI和Google一樣它會(huì)在產(chǎn)品更新時(shí)發(fā)布官方技術(shù)公告,,有心人還是可以從中一窺模型能力提升的技術(shù)原理,。

而我們?nèi)グ橇税撬嘎兜男畔⒑螅l(fā)現(xiàn)這次更新的意義遠(yuǎn)不止于大家曬的那一張張精美的圖片上…….

Midjourney V6刷屏,,但它最可怕的地方居然不是那些神圖,? – AI新智界

Midjourney v6生成,電影月光光心慌慌的假劇照,,圖片源自reddit

圖片模型的突破,,卻靠的是語(yǔ)言模型能力?

“Midjourney v6作為一個(gè)“文生圖”模型,,此次改進(jìn)的核心能力卻來(lái)自其自然語(yǔ)言處理能力的提升,。

這首先是對(duì)提示詞理解的’跟隨能力’的提升。在其官方文檔中,,這被稱為“prompt following”,。簡(jiǎn)單來(lái)說(shuō),這就是指系統(tǒng)對(duì)用戶輸入的提示詞的理解和響應(yīng)能力,。通過(guò)增強(qiáng)這一能力,,Midjourney現(xiàn)在能夠更好地解析復(fù)雜的提示,無(wú)論是關(guān)鍵詞,、命令還是問(wèn)題,,都能夠準(zhǔn)確把握。

Midjourney V6刷屏,,但它最可怕的地方居然不是那些神圖,? – AI新智界

Midjourney v6生成,電影疤面煞星的假劇照,,圖片源自reddit

第二個(gè)顯著的更新是提示詞的長(zhǎng)度。用戶現(xiàn)在可以輸入更長(zhǎng)的提示詞,。這一方面得益于上面提到的模型跟蹤能力的增強(qiáng),,另外則依靠模型連貫性的提升。

所謂連貫性,,用一個(gè)經(jīng)典的故事就能解釋,。A問(wèn)B:“下午大掃除,,你來(lái)嗎?”B說(shuō):“我去,!我不去,!”那么B的意思毫無(wú)疑問(wèn)是不去,因?yàn)樯衔闹械拇髵叱浅@?,而B(niǎo)說(shuō)的“我去,!”在這里則表示驚訝,能夠準(zhǔn)確理解這個(gè)對(duì)話,,就叫連貫性,。它確保了模型在處理用戶哪怕很復(fù)雜的指令輸入時(shí),也能夠邏輯一致地響應(yīng),。

Midjourney V6刷屏,,但它最可怕的地方居然不是那些神圖? – AI新智界

Midjourney v6生成,,李?yuàn)W納多在網(wǎng)飛出演電視劇的海報(bào),,圖片源自reddit

這兩個(gè)自然語(yǔ)言能力上的改進(jìn),Midjourney具體是如何做的,?

在跟隨能力方面的改進(jìn),,主要基于三個(gè)方面:

上下文管理,它通過(guò)分析上下文關(guān)系來(lái)更準(zhǔn)確地理解用戶意圖,;序列建模,,利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)來(lái)捕捉對(duì)話中的長(zhǎng)期依賴;以及交互狀態(tài)跟蹤,,它持續(xù)追蹤用戶的目標(biāo),、意圖和對(duì)話狀態(tài),以確保系統(tǒng)響應(yīng)的連貫性,。

這些改進(jìn)看起來(lái)就像是一個(gè)大語(yǔ)言模型的進(jìn)化中在做的事情,。

Midjourney V6刷屏,但它最可怕的地方居然不是那些神圖,? – AI新智界

Midjourney v6生成,,圣誕夜驚魂版的小丑和哈莉奎茵,圖片源自reddit

但它畢竟是個(gè)文生圖模型,,也就是語(yǔ)言能力和圖片能力結(jié)合的模型,,這其實(shí)也給它在提升能力時(shí)帶來(lái)了優(yōu)勢(shì)——與語(yǔ)言模型的對(duì)話產(chǎn)品形態(tài)總是涉及隱私與所屬的問(wèn)題不同,Midjourney v6生成的圖片目前來(lái)看,,全部是公共資源,。

也就是說(shuō)你花錢買了服務(wù)以后,圖片是公共的,,模型會(huì)生成兩份,,你拿一份,,V6的服務(wù)器(也就是V6 discoard)也拿一份。那么Midjouney可以拿這些“實(shí)戰(zhàn)”反過(guò)來(lái)加入到自己的預(yù)訓(xùn)練大模型中,,繼續(xù)訓(xùn)練模型以提高性能,。

Midjourney V6刷屏,但它最可怕的地方居然不是那些神圖,? – AI新智界

Midjourney v6生成,,一只貓拿著手槍,圖片源自reddit

所以這還引出一個(gè)有意思的話題,,如果文生圖因此而能夠源源不斷擁有更高質(zhì)量的數(shù)據(jù)來(lái)反哺到預(yù)訓(xùn)練階段,,而數(shù)據(jù)真的成為模型訓(xùn)練的決定性因素后,是不是文生圖模型有可能訓(xùn)練出比大語(yǔ)言模型更強(qiáng)的語(yǔ)言能力,?

在連貫性提升上其實(shí)就已經(jīng)有一點(diǎn)這個(gè)味道,。對(duì)于大語(yǔ)言模型來(lái)說(shuō),想要提高連貫性并不簡(jiǎn)單,,涉及了多方面的因素,。但是作為一個(gè)使用自然語(yǔ)言來(lái)生成圖片的模型,事實(shí)上簡(jiǎn)化了過(guò)程,,由于它不涉及與用戶進(jìn)行持續(xù)對(duì)話,,因此無(wú)需應(yīng)用束搜索等啟發(fā)式算法,也無(wú)需處理自然語(yǔ)言生成中的后處理問(wèn)題,,如語(yǔ)法校正和風(fēng)格調(diào)整,。這種簡(jiǎn)化使得Midjourney在提高連貫性方面只需專注于核心任務(wù),從而顯著提升了其在理解和響應(yīng)用戶輸入時(shí)的邏輯一致性,。

Midjourney V6刷屏,,但它最可怕的地方居然不是那些神圖? – AI新智界

Midjourney v6生成,,獵魔人杰洛特與超人的結(jié)合,,二者皆有同一演員亨利·卡維爾飾演,圖片源自reddit

懂視覺(jué)的模型能有更好的文字能力,?

圖像模型卻靠語(yǔ)言能力突破,,這其實(shí)已經(jīng)不是第一次。此前同樣引發(fā)一陣騷動(dòng)的Dalle3,,也是如此,。作為OpenAI的模型,背靠ChatGPT,,語(yǔ)言能力自然更強(qiáng),。

在對(duì)比了兩者后我發(fā)現(xiàn)V6在語(yǔ)言理解上其實(shí)還是較DALL·E有一定差距。最明顯的地方就在于適應(yīng)性上。適應(yīng)性代表系統(tǒng)在能適應(yīng)不同用戶的語(yǔ)言風(fēng)格和表達(dá)方式,,以及在面對(duì)新的或未見(jiàn)過(guò)的情況時(shí)保持響應(yīng)連貫性的能力??赡苁荄ALL·E背靠ChatGPT,,所以在對(duì)自然語(yǔ)言各方面的性能上會(huì)更優(yōu)異一些。

但Midjourney似乎也在瞄著ChatGPT為代表的語(yǔ)言模型的能力來(lái)進(jìn)化,。在此次的更新中,,V6增加的另一個(gè)非常重要的能力,也與語(yǔ)言有關(guān),。Midjourney稱,,其現(xiàn)在擁有了文本繪制能力,雖然依然較弱,。

對(duì)于人工智能繪圖來(lái)說(shuō),,能繪制文本無(wú)疑是一項(xiàng)重大進(jìn)步,。

Midjourney V6刷屏,但它最可怕的地方居然不是那些神圖,? – AI新智界

文字不再是亂碼,。圖源:X.com

這個(gè)能力并非像看起來(lái)那樣,直接來(lái)自模型里大語(yǔ)言模型的模塊,。在官方更新里,,文本繪制能力后緊隨的是圖像放大功能的更新。它們?cè)肀容^復(fù)雜,,但本質(zhì)其實(shí)是同一個(gè)問(wèn)題,。

圖像生成模型在訓(xùn)練的時(shí)候所用的數(shù)據(jù),是一些通過(guò)泛化和模糊處理的圖像內(nèi)容,。我們都知道,,分辨率越高的圖片數(shù)據(jù)量越大,,反之,越模糊越泛化的圖片它的數(shù)據(jù)量就越小,。人工智能理解圖片的方式和人類完全不一樣,,他們是按照統(tǒng)計(jì)學(xué)的一個(gè)概念叫做“模式識(shí)別”,通過(guò)圖片中的特征來(lái)理解,。使用泛化和模糊的圖片好處在于,,小數(shù)據(jù)量的圖片讀取速度快,訓(xùn)練時(shí)間就短,。但想要用這種訓(xùn)練方式來(lái)理解文字是非常難的,,因?yàn)槲淖质且环N符號(hào),這種泛化處理對(duì)于圖像中的文字尤其不利,,即使是微小的變形或模糊都可能導(dǎo)致文字難以辨認(rèn),。同時(shí),訓(xùn)練所使用的圖像分辨率很低,,那么生成圖片時(shí),,分辨率也不會(huì)高到哪里去。

Midjourney V6刷屏,,但它最可怕的地方居然不是那些神圖,? – AI新智界

圖片上的文字與圖像整體風(fēng)格融合。圖片來(lái)源:X.com

而Midjourney的訓(xùn)練方法,,其實(shí)就是在訓(xùn)練它的圖像“放大”能力,。它所使用的模型叫做去噪擴(kuò)散概率模型(denoising diffusion probabilistic models),這種模型通過(guò)模擬從噪聲中提取信息的過(guò)程來(lái)生成清晰的圖像,。想象一下,,就像我們用軟件修復(fù)模糊的老照片,Midjourney的模型也能夠從模糊的圖像中“學(xué)習(xí)”到清晰的細(xì)節(jié),。

Midjourney V6刷屏,,但它最可怕的地方居然不是那些神圖? – AI新智界

圖片來(lái)源:X.com

也就是說(shuō),,這是像Midjourney這樣的圖像模型一直在做的事情,,訓(xùn)練越久優(yōu)化越久它的圖像“放大”能力就越強(qiáng),也就會(huì)逐漸產(chǎn)生關(guān)于文字的生成能力,。

在直覺(jué)上,,這種能力肯定不如“純粹”的語(yǔ)言模型的語(yǔ)言能力,但一些研究已經(jīng)在給出不同的指向,,在多模態(tài)領(lǐng)域很重要的模型VLMO的論文里就曾提到一個(gè)有意思的結(jié)論,,當(dāng)你完全拿一個(gè)在視覺(jué)數(shù)據(jù)上訓(xùn)練好的模型,可以直接對(duì)文本數(shù)據(jù)建模,甚至不需要微調(diào)就可以有很強(qiáng)的文本生成能力,。但反過(guò)來(lái)用語(yǔ)言訓(xùn)練在視覺(jué)上生成,,則差很多。

Midjourney V6刷屏,,但它最可怕的地方居然不是那些神圖,? – AI新智界

這也許就是視覺(jué)想對(duì)文字說(shuō)的話。圖源:X.com

這是一種很奇怪也很有意思的現(xiàn)象,,這一次V6似乎把它再一次輕微的展示出來(lái)了。而更重要的是在今天多模態(tài)大模型已經(jīng)成為未來(lái)最重要的趨勢(shì)時(shí),,一個(gè)圖像能力為主的模型產(chǎn)生文字能力給了走向多模態(tài)一個(gè)新的思路,。

世界更精彩了。

免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1084758.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。

(0)
硅星人的頭像硅星人
上一篇 2023年12月24日 上午11:21
下一篇 2023年12月24日 下午1:25
198搶自鏈數(shù)字人

相關(guān)推薦