原文來源:阿爾法公社
圖片來源:由無界 AI生成
12月8日,,Mistral AI在X(原Twitter)上發(fā)布了一條磁力鏈接,直接開源了自己最新的MoE(Mixture of Experts)大模型Mixtral 8x7B,這個(gè)模型不僅在測(cè)試成績(jī)上追平甚至超越了Llama 2 70B和GPT-3.5,,也帶動(dòng)MoE(Mixture of Experts)成為開源AI社區(qū)的最火議題。
伴隨著這個(gè)模型的開源,,Mistral AI完成了自己的最新一輪融資,,這輪融資由a16z和Lightspeed Venture Partners領(lǐng)投,總金額約合4.15億美元,。根據(jù)彭博社報(bào)道,,這一輪中,英偉達(dá)和Salesforce也承諾以可轉(zhuǎn)換票據(jù)的形式參與投資,,金額1.2億歐元,。這使得Mistral AI的估值達(dá)到約20億美元,自6月份首次亮相以來,,其估值已增長(zhǎng)超過七倍,,成為歐洲最成功的大模型公司。
在今年6月,,Mistral AI獲得1.05億歐元(約合1.13億美元)的種子融資,,由Lightspeed Venture Partners領(lǐng)投,眾多歐洲投資機(jī)構(gòu)及前谷歌首席執(zhí)行官Eric Schmidt,、法國(guó)億萬富翁Xavier Niel和法國(guó)廣告巨頭JCDecaux參投,。
為什么這家22人的創(chuàng)業(yè)公司可以短時(shí)間內(nèi)連獲兩輪大額融資?一方面,,它由來自DeepMind和MetaAI的技術(shù)專家組建了“世界級(jí)團(tuán)隊(duì)”,,并用高性能和高效率的開源AI模型證明了自己的實(shí)力和潛力。另一方面,,它為法國(guó)和歐洲提供了自主可控AI的機(jī)會(huì),,其開源路線也讓企業(yè)開發(fā)者有了更多的選擇,。
DeepMind與llama核心技術(shù)專家聯(lián)手建立歐洲自己的OpenAI
Mistral AI的三位聯(lián)合創(chuàng)始人是來自DeepMind的Arthur Mensch(CEO)及MetaAI的兩位資深技術(shù)專家Timothée Lacroix(CTO)和Guillaume Lample(首席科學(xué)家)。
Arthur Mensch參與了Deepmind的多個(gè)經(jīng)典的模型:Flamingo(重要的多模態(tài)模型),、Chinchilla,、Gopher,他是Flamingo和Chinchilla的核心貢獻(xiàn)者,,對(duì)多模態(tài),、RAG等技術(shù)有深刻的理解。
Timothée Lacroix和Guillaume Lample是MetaAI的llama系列開源大模型的核心研究人員,。其中Timothée Lacroix在Meta有8年工作經(jīng)歷,,對(duì)于AI模型推理和嵌入模型有深入研究,Guillaume Lample則對(duì)模型的推理能力和預(yù)訓(xùn)練有豐富經(jīng)驗(yàn),。
Mensch介紹,,三位創(chuàng)始人聯(lián)合創(chuàng)立Mistral AI,其使命是讓生成式AI為所有企業(yè)所用,?!澳壳拔覀円呀?jīng)證明了AI的能力,但是它仍然不夠普及,,我們需要解決這個(gè)問題,,為更多人提供易于使用的AI和工具,以創(chuàng)造自己的產(chǎn)品,?!盡ensch表示。
Mistral AI在其博客文章中表述了做開源AI模型的初衷:“我們相信對(duì)于生成式AI,,采取開放方式是必要的,。
我們堅(jiān)信,通過訓(xùn)練我們自己的模型,,公開發(fā)布它們,,并促進(jìn)社區(qū)貢獻(xiàn),我們可以構(gòu)建一個(gè)可信的替代方案,,對(duì)抗正在形成的人工智能寡頭壟斷。開放權(quán)重的生成式AI模型將在人工智能革命中發(fā)揮關(guān)鍵作用,?!?/p>
而OpenAI和谷歌等走閉源路線的大公司則認(rèn)為,將大模型開源是有危險(xiǎn)的,,這可能導(dǎo)致底層大模型被“壞人”掌握,,并被做成惡意工具。
OpenAI和谷歌也以身作則,,花費(fèi)數(shù)月時(shí)間為大模型開發(fā)安全防護(hù)措施,,以確保它們不能被用來傳播虛假信息和仇恨言論,或生成有偏見的問題回答,。
a16z的合伙人Anjney Midha在接受《紐約時(shí)報(bào)》采訪時(shí)表示:“我們相信人工智能應(yīng)該是開放的,開源方法已成為除計(jì)算機(jī)操作系統(tǒng),、編程語言,、數(shù)據(jù)庫等幾乎所有其他技術(shù)領(lǐng)域的常態(tài)?!?/p>
Lightspeed的合伙人Antoine Moyroud在接受TechCrunch采訪時(shí)則說:“支持Mistral AI的一個(gè)原因是其創(chuàng)始人對(duì)生成式AI的愿景,,以及知道何時(shí)何地應(yīng)用這一技術(shù)。這是一個(gè)非常有才華的團(tuán)隊(duì),,我們認(rèn)為,,目前全球只有大約70-100人擁有他們?cè)谡Z言模型及其優(yōu)化方面的專業(yè)知識(shí)?!?/p>
用開源的MoE模型以小博大
翻開Mistral AI的X(原Twitter)頁面,,最上方的兩條內(nèi)容都是磁力鏈接,這代表了他們對(duì)兩個(gè)模型的開源,。
Mistral 7B初試啼聲
今年9月,,Mistral AI發(fā)布了其首個(gè)語言模型Mistral 7B,擁有73億參數(shù),,它在基準(zhǔn)測(cè)試中成績(jī)超過了Meta的Llama 2等參數(shù)更大的先進(jìn)開源模型,。
據(jù)Mistral AI的CEO Mensch表示,他們?yōu)槠銵LM設(shè)計(jì)了一種更高效,、更具成本效益的訓(xùn)練方法,,其模型的運(yùn)營(yíng)成本不到OpenAI或谷歌最佳大模型的一半。
Mistral 7B在所有基準(zhǔn)測(cè)試中超越了Llama 2 13B ,,在許多基準(zhǔn)測(cè)試中超越了Llama 1 34B ,,在代碼性能上接近CodeLlama 7B,,同時(shí)在英語任務(wù)上表現(xiàn)良好。
Mistral 7B分組查詢注意力(GQA)以實(shí)現(xiàn)更快的推理 使用滑動(dòng)窗口注意力(SWA)以較小的成本處理更長(zhǎng)的序列,。
最重要的是,,該模型是在Apache 2.0許可下發(fā)布的,這是一種高度寬松的方案,,除了歸屬之外沒有使用或復(fù)制的限制,。這意味著,無論是業(yè)余愛好者,、數(shù)十億美元的大公司,,只要他們有能力在本地運(yùn)行該系統(tǒng),或愿意支付所需的云資源費(fèi)用,,都可以使用該模型,。還可以在HuggingFace上使用 Mistral 7B針對(duì)任何任務(wù)進(jìn)行微調(diào)。
Mistral團(tuán)隊(duì)表示,,他們?cè)谟?xùn)練Mistral 7B的同時(shí),,重建了頂級(jí)性能的MLops堆棧,并從零開始設(shè)計(jì)了最復(fù)雜的數(shù)據(jù)處理管道,。
Mixtral 8x7B展現(xiàn)實(shí)力
12月,,Mistral AI再次發(fā)布一條磁力鏈接,開源了他們的MoE(Mixture of Experts)大模型Mixtral 8x7B,。Mixtral 8x7B是一款具有開放權(quán)重的尖端稀疏專家混合模型(SMoE),,它具有32k Tokens的上下文能力以及對(duì)包括英語、法語,、意大利語,、德語和西班牙語在內(nèi)的多種語言的支持,它同樣采用Apache 2.0許可證進(jìn)行開源,。
MoE(Mixture of Experts)在Transformer模型中的應(yīng)用主要是為了提高模型的處理能力和效率,。MoE通過將大型模型分解為多個(gè)“專家”子模塊來實(shí)現(xiàn)這一點(diǎn)。每個(gè)專家負(fù)責(zé)處理輸入數(shù)據(jù)的一個(gè)特定方面或子集,。
在MoE架構(gòu)中,,每個(gè)專家可能是一個(gè)小型的Transformer模型,專門處理特定類型的輸入數(shù)據(jù),。例如,,一個(gè)專家可能專注于處理自然語言的語法結(jié)構(gòu),而另一個(gè)專家可能專注于理解語義內(nèi)容,。
MoE架構(gòu)中的一個(gè)關(guān)鍵組成部分是門控機(jī)制,,它決定了哪些專家應(yīng)該被用于處理特定的輸入數(shù)據(jù)。這種機(jī)制可以基于輸入數(shù)據(jù)的特性來動(dòng)態(tài)選擇最合適的專家組合。
通過使用MoE,,Transformer模型可以更有效地?cái)U(kuò)展到大規(guī)模數(shù)據(jù)集和復(fù)雜任務(wù),。這是因?yàn)樗试S模型僅激活和使用處理特定輸入最相關(guān)的專家部分,而不是整個(gè)模型,。
具體到Mixtral 8x7B,,它是一個(gè)僅限解碼器的模型,其中前饋塊從8組不同的參數(shù)集中選擇,。在每一層,,對(duì)于每個(gè)標(biāo)記,一個(gè)路由網(wǎng)絡(luò)選擇這些組中的兩組(“專家”)來處理標(biāo)記,,并將它們的輸出以加法方式結(jié)合,。
它擁有46.7B的總參數(shù)量,但每個(gè)token只使用其中12.9B參數(shù),。因此,,Mixtral的實(shí)際執(zhí)行速度和所需的成本,都只相當(dāng)于一個(gè)12.9B的模型,。
在性能上,,它在大多數(shù)基準(zhǔn)測(cè)試中超越了目前開源大模型的標(biāo)桿Llama 2 70B,并且與GPT3.5不相上下,,在總共7項(xiàng)對(duì)比測(cè)試中,,它獲得4項(xiàng)測(cè)試的最高分?jǐn)?shù)。
在另一項(xiàng)包含Mistral 7B的測(cè)試中,,可以看出,Mistral 7B的分?jǐn)?shù)幾乎總是高于Llama 2 7B甚至Llama 2 13B,,而Mixtral 8x7B相對(duì)Llama 2 70B也有非常明顯的優(yōu)勢(shì),,再考慮到Mixtral 8x7B在推理成本上的優(yōu)勢(shì)(比Llama 2 70B快6倍),這個(gè)對(duì)比的結(jié)果更加明顯,。
大模型的幻覺和偏見內(nèi)容是評(píng)判其可用性的重要指標(biāo),,Mixtral 8x7B在TruthfulQA、BBQ,、BOLD等相關(guān)基礎(chǔ)測(cè)試上獲得了比Llama 2 70B明顯更優(yōu)的結(jié)果,。Mixtral在TruthfulQA基準(zhǔn)測(cè)試中更為真實(shí)(73.9%對(duì)比50.2%),并且在BBQ基準(zhǔn)測(cè)試中表現(xiàn)出更少的偏見,,Mixtral在BOLD上展現(xiàn)出比Llama 2更多的積極情緒,。
Mixtral還推出了 8x7B Instruct,這個(gè)模型通過監(jiān)督式微調(diào)和直接偏好優(yōu)化(DPO)進(jìn)行了優(yōu)化,,以便精確地遵循指令,。在MT-Bench上,它達(dá)到了8.30的分?jǐn)?shù),,使其成為最好的開源模型,,其性能可與GPT3.5媲美,。
可用性和商業(yè)模式
目前,Mistral AI開放了首個(gè)平臺(tái)服務(wù)的測(cè)試版—la plateforme,。平臺(tái)提供了三個(gè)基于指令生成文本的聊天模型,,以及一個(gè)嵌入模型。
Mistral-tiny和Mistral-small已經(jīng)正式發(fā)布,,而性能更強(qiáng)的mistral-medium還處在測(cè)試階段,。這些模型在開放網(wǎng)絡(luò)抽取的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,隨后通過標(biāo)注進(jìn)行指令微調(diào),。
Mistral-tiny基于Mistral 7B Instruct v0.2,,Mistral-small基于Mixtral 8x7B,Mistral-medium還在測(cè)試中,,不過其性能非常值得期待,。
除此之外,MistralAI還開放了API,,其模型也能在 Hugging Face,、Poe、Replicate等平臺(tái)上直接使用,。
那么做開源的Mistral AI商業(yè)模式是什么呢,,很有可能是現(xiàn)階段開源模型可以免費(fèi)使用,但是在后期可能推出更大性能更強(qiáng)的模型,,并以API的方式收費(fèi),。
鑒于Mistral AI對(duì)于底層技術(shù)的理解深度和創(chuàng)新,他們也可能搭建AI定制化平臺(tái),,為企業(yè)用戶提供微調(diào),,RAG,定制化等服務(wù),。
Mistral AI在一篇博客中寫道:“我們的商業(yè)產(chǎn)品將作為白盒解決方案分發(fā),,使權(quán)重和代碼源都可用。我們正在積極開發(fā)托管解決方案和專門針對(duì)企業(yè)的部署,?!?/p>
創(chuàng)業(yè)公司做開源大模型的意義在哪里?
創(chuàng)始人的基因決定了企業(yè)的基因,,Mistral AI的創(chuàng)始人們來自llama團(tuán)隊(duì)和DeepMind,,本身就具有開源的基因,這一定程度上促使他們采用開源的戰(zhàn)略,。而且因?yàn)閯?chuàng)始團(tuán)隊(duì)和技術(shù)團(tuán)隊(duì)能力的強(qiáng)大,,它們的小模型和MoE模型不僅擁有超強(qiáng)的性能/參數(shù)比,而且在推理成本上有明顯的優(yōu)勢(shì)。
并且這種“小模型”的策略,,是有意為之,,Mistral AI的創(chuàng)始人Mensch認(rèn)為,小模型有助于Agents的開發(fā)和應(yīng)用,,因?yàn)槿绻贕PT-4上運(yùn)行 Agents,,推理成本會(huì)很高,很容易很快就耗光資金,。但如果能通過小模型將Agents運(yùn)行的計(jì)算成本降低100倍,,那么就有機(jī)會(huì)構(gòu)建很多有意思的應(yīng)用了。
除了開源,、小模型,、MoE技術(shù)外,Mistral AI的另一個(gè)差異化是它面向的歐洲市場(chǎng),。
一方面,,歐洲擁有超過100家的500強(qiáng)公司,多集中在傳統(tǒng)行業(yè)如汽車,、石油和天然氣,、制藥、電信,、銀行等,。它們擁有足夠的付費(fèi)能力,且對(duì)先進(jìn)技術(shù)解決方案有強(qiáng)烈的需求,。
另一方面,,歐洲有特殊的經(jīng)營(yíng)環(huán)境,主要表現(xiàn)在更嚴(yán)格的監(jiān)管和技術(shù)透明度要求,,例如GDPR和歐盟AI法案等,。身處歐洲的AI獨(dú)角獸,更有可能適應(yīng)這些法規(guī),,并有可能獲得更多支持。
llama2的開源本身對(duì)于生成式AI的應(yīng)用生態(tài)就是利好,,幫助AI應(yīng)用公司節(jié)省了巨量的模型預(yù)訓(xùn)練成本?,F(xiàn)在有Mistral AI這樣既開源,又能讓小模型有超強(qiáng)性能,,還能用MoE模型去媲美更大尺寸模型的先進(jìn)AI技術(shù)公司,,這對(duì)于AI應(yīng)用的發(fā)展將起到更大的推動(dòng)作用。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1083394.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。