国产三级久久久精品麻豆三级,国产精品一区理论片

原文來源：阿爾法公社

圖片來源：由無界 AI生成

12月8日,，Mistral AI在X（原Twitter）上發(fā)布了一條磁力鏈接,，直接開源了自己最新的MoE（Mixture of Experts）大模型Mixtral 8x7B,，這個(gè)模型不僅在測試成績上追平甚至超越了Llama 2 70B和GPT-3.5,，也帶動(dòng)MoE（Mixture of Experts）成為開源AI社區(qū)的最火議題。

伴隨著這個(gè)模型的開源,，Mistral AI完成了自己的最新一輪融資,，這輪融資由a16z和Lightspeed Venture Partners領(lǐng)投,，總金額約合4.15億美元,。根據(jù)彭博社報(bào)道,，這一輪中，英偉達(dá)和Salesforce也承諾以可轉(zhuǎn)換票據(jù)的形式參與投資,，金額1.2億歐元,。這使得Mistral AI的估值達(dá)到約20億美元，自6月份首次亮相以來,，其估值已增長超過七倍,，成為歐洲最成功的大模型公司。

在今年6月,，Mistral AI獲得1.05億歐元（約合1.13億美元）的種子融資,，由Lightspeed Venture Partners領(lǐng)投，眾多歐洲投資機(jī)構(gòu)及前谷歌首席執(zhí)行官Eric Schmidt,、法國億萬富翁Xavier Niel和法國廣告巨頭JCDecaux參投。

為什么這家22人的創(chuàng)業(yè)公司可以短時(shí)間內(nèi)連獲兩輪大額融資,？一方面,，它由來自DeepMind和MetaAI的技術(shù)專家組建了“世界級團(tuán)隊(duì)”，并用高性能和高效率的開源AI模型證明了自己的實(shí)力和潛力,。另一方面,，它為法國和歐洲提供了自主可控AI的機(jī)會(huì)，其開源路線也讓企業(yè)開發(fā)者有了更多的選擇,。

DeepMind與llama核心技術(shù)專家聯(lián)手建立歐洲自己的OpenAI

Mistral AI的三位聯(lián)合創(chuàng)始人是來自DeepMind的Arthur Mensch（CEO）及MetaAI的兩位資深技術(shù)專家Timothée Lacroix（CTO）和Guillaume Lample（首席科學(xué)家）,。

Arthur Mensch參與了Deepmind的多個(gè)經(jīng)典的模型：Flamingo（重要的多模態(tài)模型）,、Chinchilla、Gopher,，他是Flamingo和Chinchilla的核心貢獻(xiàn)者,，對多模態(tài)、RAG等技術(shù)有深刻的理解,。

Timothée Lacroix和Guillaume Lample是MetaAI的llama系列開源大模型的核心研究人員,。其中Timothée Lacroix在Meta有8年工作經(jīng)歷，對于AI模型推理和嵌入模型有深入研究,，Guillaume Lample則對模型的推理能力和預(yù)訓(xùn)練有豐富經(jīng)驗(yàn),。

Mensch介紹，三位創(chuàng)始人聯(lián)合創(chuàng)立Mistral AI,，其使命是讓生成式AI為所有企業(yè)所用,。“目前我們已經(jīng)證明了AI的能力,，但是它仍然不夠普及,，我們需要解決這個(gè)問題，為更多人提供易于使用的AI和工具,，以創(chuàng)造自己的產(chǎn)品,。”Mensch表示,。

Mistral AI在其博客文章中表述了做開源AI模型的初衷：“我們相信對于生成式AI,，采取開放方式是必要的。

我們堅(jiān)信,，通過訓(xùn)練我們自己的模型,，公開發(fā)布它們，并促進(jìn)社區(qū)貢獻(xiàn),，我們可以構(gòu)建一個(gè)可信的替代方案,，對抗正在形成的人工智能寡頭壟斷,。開放權(quán)重的生成式AI模型將在人工智能革命中發(fā)揮關(guān)鍵作用,。”

而OpenAI和谷歌等走閉源路線的大公司則認(rèn)為,，將大模型開源是有危險(xiǎn)的,，這可能導(dǎo)致底層大模型被“壞人”掌握，并被做成惡意工具,。

OpenAI和谷歌也以身作則,，花費(fèi)數(shù)月時(shí)間為大模型開發(fā)安全防護(hù)措施，以確保它們不能被用來傳播虛假信息和仇恨言論,，或生成有偏見的問題回答,。

a16z的合伙人Anjney Midha在接受《紐約時(shí)報(bào)》采訪時(shí)表示：“我們相信人工智能應(yīng)該是開放的，開源方法已成為除計(jì)算機(jī)操作系統(tǒng),、編程語言,、數(shù)據(jù)庫等幾乎所有其他技術(shù)領(lǐng)域的常態(tài)?！?/p>

Lightspeed的合伙人Antoine Moyroud在接受TechCrunch采訪時(shí)則說：“支持Mistral AI的一個(gè)原因是其創(chuàng)始人對生成式AI的愿景,，以及知道何時(shí)何地應(yīng)用這一技術(shù)。這是一個(gè)非常有才華的團(tuán)隊(duì),，我們認(rèn)為,，目前全球只有大約70-100人擁有他們在語言模型及其優(yōu)化方面的專業(yè)知識(shí)?！?/p>

用開源的MoE模型以小博大

翻開Mistral AI的X（原Twitter）頁面,，最上方的兩條內(nèi)容都是磁力鏈接，這代表了他們對兩個(gè)模型的開源,。

Mistral 7B初試啼聲

今年9月,，Mistral AI發(fā)布了其首個(gè)語言模型Mistral 7B，擁有73億參數(shù),，它在基準(zhǔn)測試中成績超過了Meta的Llama 2等參數(shù)更大的先進(jìn)開源模型,。

據(jù)Mistral AI的CEO Mensch表示，他們?yōu)槠銵LM設(shè)計(jì)了一種更高效,、更具成本效益的訓(xùn)練方法,，其模型的運(yùn)營成本不到OpenAI或谷歌最佳大模型的一半。

Mistral 7B在所有基準(zhǔn)測試中超越了Llama 2 13B ,，在許多基準(zhǔn)測試中超越了Llama 1 34B ，在代碼性能上接近CodeLlama 7B,，同時(shí)在英語任務(wù)上表現(xiàn)良好,。

Mistral 7B分組查詢注意力（GQA）以實(shí)現(xiàn)更快的推理使用滑動(dòng)窗口注意力（SWA）以較小的成本處理更長的序列,。

最重要的是，該模型是在Apache 2.0許可下發(fā)布的,，這是一種高度寬松的方案,，除了歸屬之外沒有使用或復(fù)制的限制。這意味著,，無論是業(yè)余愛好者,、數(shù)十億美元的大公司，只要他們有能力在本地運(yùn)行該系統(tǒng),，或愿意支付所需的云資源費(fèi)用,，都可以使用該模型。還可以在HuggingFace上使用 Mistral 7B針對任何任務(wù)進(jìn)行微調(diào),。

Mistral團(tuán)隊(duì)表示,，他們在訓(xùn)練Mistral 7B的同時(shí)，重建了頂級性能的MLops堆棧,，并從零開始設(shè)計(jì)了最復(fù)雜的數(shù)據(jù)處理管道,。

Mixtral 8x7B展現(xiàn)實(shí)力

12月，Mistral AI再次發(fā)布一條磁力鏈接,，開源了他們的MoE（Mixture of Experts）大模型Mixtral 8x7B,。Mixtral 8x7B是一款具有開放權(quán)重的尖端稀疏專家混合模型（SMoE），它具有32k Tokens的上下文能力以及對包括英語,、法語,、意大利語、德語和西班牙語在內(nèi)的多種語言的支持,，它同樣采用Apache 2.0許可證進(jìn)行開源,。

MoE（Mixture of Experts）在Transformer模型中的應(yīng)用主要是為了提高模型的處理能力和效率。MoE通過將大型模型分解為多個(gè)“專家”子模塊來實(shí)現(xiàn)這一點(diǎn),。每個(gè)專家負(fù)責(zé)處理輸入數(shù)據(jù)的一個(gè)特定方面或子集,。

在MoE架構(gòu)中，每個(gè)專家可能是一個(gè)小型的Transformer模型,，專門處理特定類型的輸入數(shù)據(jù),。例如，一個(gè)專家可能專注于處理自然語言的語法結(jié)構(gòu),，而另一個(gè)專家可能專注于理解語義內(nèi)容,。

MoE架構(gòu)中的一個(gè)關(guān)鍵組成部分是門控機(jī)制，它決定了哪些專家應(yīng)該被用于處理特定的輸入數(shù)據(jù),。這種機(jī)制可以基于輸入數(shù)據(jù)的特性來動(dòng)態(tài)選擇最合適的專家組合,。

通過使用MoE，Transformer模型可以更有效地?cái)U(kuò)展到大規(guī)模數(shù)據(jù)集和復(fù)雜任務(wù),。這是因?yàn)樗试S模型僅激活和使用處理特定輸入最相關(guān)的專家部分,，而不是整個(gè)模型,。

具體到Mixtral 8x7B，它是一個(gè)僅限解碼器的模型,，其中前饋塊從8組不同的參數(shù)集中選擇,。在每一層，對于每個(gè)標(biāo)記,，一個(gè)路由網(wǎng)絡(luò)選擇這些組中的兩組（“專家”）來處理標(biāo)記,，并將它們的輸出以加法方式結(jié)合。

它擁有46.7B的總參數(shù)量,，但每個(gè)token只使用其中12.9B參數(shù),。因此，Mixtral的實(shí)際執(zhí)行速度和所需的成本,，都只相當(dāng)于一個(gè)12.9B的模型,。

在性能上，它在大多數(shù)基準(zhǔn)測試中超越了目前開源大模型的標(biāo)桿Llama 2 70B,，并且與GPT3.5不相上下,，在總共7項(xiàng)對比測試中，它獲得4項(xiàng)測試的最高分?jǐn)?shù),。

在另一項(xiàng)包含Mistral 7B的測試中,，可以看出，Mistral 7B的分?jǐn)?shù)幾乎總是高于Llama 2 7B甚至Llama 2 13B,，而Mixtral 8x7B相對Llama 2 70B也有非常明顯的優(yōu)勢,，再考慮到Mixtral 8x7B在推理成本上的優(yōu)勢（比Llama 2 70B快6倍），這個(gè)對比的結(jié)果更加明顯,。

大模型的幻覺和偏見內(nèi)容是評判其可用性的重要指標(biāo),，Mixtral 8x7B在TruthfulQA、BBQ,、BOLD等相關(guān)基礎(chǔ)測試上獲得了比Llama 2 70B明顯更優(yōu)的結(jié)果,。Mixtral在TruthfulQA基準(zhǔn)測試中更為真實(shí)（73.9%對比50.2%），并且在BBQ基準(zhǔn)測試中表現(xiàn)出更少的偏見,，Mixtral在BOLD上展現(xiàn)出比Llama 2更多的積極情緒,。

Mixtral還推出了 8x7B Instruct，這個(gè)模型通過監(jiān)督式微調(diào)和直接偏好優(yōu)化（DPO）進(jìn)行了優(yōu)化,，以便精確地遵循指令,。在MT-Bench上，它達(dá)到了8.30的分?jǐn)?shù),，使其成為最好的開源模型,，其性能可與GPT3.5媲美。

可用性和商業(yè)模式

目前，Mistral AI開放了首個(gè)平臺(tái)服務(wù)的測試版—la plateforme,。平臺(tái)提供了三個(gè)基于指令生成文本的聊天模型,，以及一個(gè)嵌入模型。

Mistral-tiny和Mistral-small已經(jīng)正式發(fā)布,，而性能更強(qiáng)的mistral-medium還處在測試階段。這些模型在開放網(wǎng)絡(luò)抽取的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,，隨后通過標(biāo)注進(jìn)行指令微調(diào),。

Mistral-tiny基于Mistral 7B Instruct v0.2，Mistral-small基于Mixtral 8x7B,，Mistral-medium還在測試中,，不過其性能非常值得期待。

除此之外,，MistralAI還開放了API,，其模型也能在 Hugging Face、Poe,、Replicate等平臺(tái)上直接使用,。

那么做開源的Mistral AI商業(yè)模式是什么呢，很有可能是現(xiàn)階段開源模型可以免費(fèi)使用,，但是在后期可能推出更大性能更強(qiáng)的模型,，并以API的方式收費(fèi)。

鑒于Mistral AI對于底層技術(shù)的理解深度和創(chuàng)新,，他們也可能搭建AI定制化平臺(tái),，為企業(yè)用戶提供微調(diào)，RAG,，定制化等服務(wù),。

Mistral AI在一篇博客中寫道：“我們的商業(yè)產(chǎn)品將作為白盒解決方案分發(fā)，使權(quán)重和代碼源都可用,。我們正在積極開發(fā)托管解決方案和專門針對企業(yè)的部署,。”

創(chuàng)業(yè)公司做開源大模型的意義在哪里,？

創(chuàng)始人的基因決定了企業(yè)的基因,，Mistral AI的創(chuàng)始人們來自llama團(tuán)隊(duì)和DeepMind，本身就具有開源的基因,，這一定程度上促使他們采用開源的戰(zhàn)略,。而且因?yàn)閯?chuàng)始團(tuán)隊(duì)和技術(shù)團(tuán)隊(duì)能力的強(qiáng)大，它們的小模型和MoE模型不僅擁有超強(qiáng)的性能/參數(shù)比,，而且在推理成本上有明顯的優(yōu)勢,。

并且這種“小模型”的策略，是有意為之，Mistral AI的創(chuàng)始人Mensch認(rèn)為,，小模型有助于Agents的開發(fā)和應(yīng)用,，因?yàn)槿绻贕PT-4上運(yùn)行 Agents，推理成本會(huì)很高,，很容易很快就耗光資金,。但如果能通過小模型將Agents運(yùn)行的計(jì)算成本降低100倍，那么就有機(jī)會(huì)構(gòu)建很多有意思的應(yīng)用了,。

除了開源,、小模型、MoE技術(shù)外,，Mistral AI的另一個(gè)差異化是它面向的歐洲市場,。

一方面，歐洲擁有超過100家的500強(qiáng)公司,，多集中在傳統(tǒng)行業(yè)如汽車,、石油和天然氣、制藥,、電信,、銀行等。它們擁有足夠的付費(fèi)能力,，且對先進(jìn)技術(shù)解決方案有強(qiáng)烈的需求,。

另一方面，歐洲有特殊的經(jīng)營環(huán)境,，主要表現(xiàn)在更嚴(yán)格的監(jiān)管和技術(shù)透明度要求,，例如GDPR和歐盟AI法案等,。身處歐洲的AI獨(dú)角獸,，更有可能適應(yīng)這些法規(guī),，并有可能獲得更多支持,。

llama2的開源本身對于生成式AI的應(yīng)用生態(tài)就是利好,，幫助AI應(yīng)用公司節(jié)省了巨量的模型預(yù)訓(xùn)練成本。現(xiàn)在有Mistral AI這樣既開源,，又能讓小模型有超強(qiáng)性能，還能用MoE模型去媲美更大尺寸模型的先進(jìn)AI技術(shù)公司,，這對于AI應(yīng)用的發(fā)展將起到更大的推動(dòng)作用。

免責(zé)聲明：本文來自網(wǎng)絡(luò)收錄或投稿,，觀點(diǎn)僅代表作者本人，不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,，版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處：http://lequren.com/1083394.html
溫馨提示：投資有風(fēng)險(xiǎn),，入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。