【導(dǎo)讀】中國工程院院士李國杰認(rèn)為,DeepSeek的橫空出世,是世界第三波人工智能浪潮中新的標(biāo)志性事件
中國基金報記者 尹振茂
2025年1月27日至2月12日,,Wind DeepSeek指數(shù)(1月26日發(fā)布)7個交易日暴漲58.29%,DeepSeek概念股并行科技同期暴漲234.73%,。
DeepSeek指數(shù)和相關(guān)個股股價狂飆的背后,是AI(人工智能)大模型公司DeepSeek的橫空出世,不僅震撼了美國,,引發(fā)美國AI芯片巨頭英偉達(dá)股價單日暴跌17%,,同時也震撼了全球。
2023年4月,,在美國OpenAI推出ChatGPT3.5大模型引發(fā)人工智能熱之后,,中國基金報記者曾專訪了中國工程院院士、前中國科學(xué)院計算技術(shù)研究所所長,、時任中科曙光董事長李國杰(參閱《徹底火了,,暴漲60%!李國杰最新研判》),。
李國杰當(dāng)時指出,,因為廣泛的滲透性,人工智能將成為21世紀(jì)起決定性作用的技術(shù),,未來幾年一定會出現(xiàn)新的標(biāo)志性事件,。
近日,中國基金報記者再次專訪中國工程院院士李國杰,,請他詳細(xì)闡釋了DeepSeek為什么會震撼全球,。
在此次專訪中,李國杰表示,,DeepSeek的橫空出世,,是世界第三波人工智能浪潮中新的標(biāo)志性事件,可以和2023年初OpenAI發(fā)布ChatGPT3.5相媲美,。DeepSeek推出的V3和R1模型既是技術(shù)上的重大突破,,也是發(fā)展模式上的顛覆性創(chuàng)新。
DeepSeek帶來的最大“震撼”,,是闖出了一條發(fā)展人工智能的新路,,中國從“追趕者”變?yōu)椤耙?guī)則改寫者”,第一次在核心技術(shù)領(lǐng)域以顛覆性創(chuàng)新而非規(guī)模優(yōu)勢挑戰(zhàn)西方霸權(quán),。
在李國杰看來,,DeepSeek的崛起動搖了硅谷與華爾街的基本信念,其對美國AI巨頭的沖擊不是短期的,,而是中長期的,。這種沖擊堪比1957年蘇聯(lián)衛(wèi)星上天的“斯普特尼克時刻”,迫使美國重新審視其技術(shù)霸權(quán)的基礎(chǔ),。
李國杰指出,,DeepSeek不僅是技術(shù)突破者,,更是規(guī)則重構(gòu)者。DeepSeek的崛起說明AI不再是簡單堆砌算力的暴力游戲,,而是進(jìn)入了以算法和模型架構(gòu)優(yōu)化為主,,同時高度重視數(shù)據(jù)質(zhì)量與規(guī)模、理性提高算力的新時期,。DeepSeek的開源戰(zhàn)略將向歷史證明:在這場AI競賽中,,誰擁抱開源,誰就能贏得未來,。
李國杰認(rèn)為,,中國人工智能企業(yè)正在重構(gòu)全球AI供應(yīng)鏈版圖。就整個人工智能領(lǐng)域而言,,在有些研究方向上中國還在跟跑,,但在推理模型等許多方向上,中國和美國已經(jīng)處于你追我趕的并跑狀態(tài),。在人工智能賽道上,,中國不止DeepSeek一家,而是有一批創(chuàng)新型科技企業(yè)進(jìn)入全球第一梯隊,。
不過,,李國杰也強(qiáng)調(diào),DeepSeek的成功并沒有否定算力在人工智能發(fā)展中的關(guān)鍵作用,。實際上,,由于用于推理的設(shè)備比訓(xùn)練設(shè)備多得多,推理所需要的算力將來會成為主要需求,。不論是算力,、數(shù)據(jù)還是算法,中國與美國仍然有差距,。要打贏這場事關(guān)國運的科技戰(zhàn),,還要做長期的艱苦努力。
以下是此次專訪全文:
中國基金報:DeepSeek的橫空出世,,是否可以和2023年初OpenAI的ChatGPT3.5類比,?是否是世界人工智能發(fā)展史上新的標(biāo)志性事件?如果是的話,,其標(biāo)志性意義是源于技術(shù)上的突破,,還是發(fā)展模式上的創(chuàng)新?
李國杰:DeepSeek的橫空出世是世界人工智能發(fā)展史上新的標(biāo)志性事件,,可以和2023年初OpenAI發(fā)布ChatGPT3.5相媲美,。DeepSeek推出的V3和R1模型既是技術(shù)上的重大突破,也是發(fā)展模式上的顛覆性創(chuàng)新,。
有人說ChatGPT是“0到1”的突破,,而DeepSeek只是“1到N”的擴(kuò)展,這種看法不符合人工智能發(fā)展的歷史軌跡,。人工智能不同于物理學(xué)等基礎(chǔ)理論研究,,物理學(xué)中的牛頓定律和愛因斯坦發(fā)現(xiàn)的相對論是“0到1”的突破。但人工智能是一個沒有嚴(yán)格定義的研究領(lǐng)域,,沒有智能和不智能的“0”和“1”的界限,,只有智能化水平不斷提高的發(fā)展過程。
從1943年提出神經(jīng)元計算模型以來,,人工智能經(jīng)歷了漫長的探索過程,。基于神經(jīng)網(wǎng)絡(luò)模型的第三波人工智能浪潮已經(jīng)出現(xiàn)好幾次里程碑式的重大事件,。
2012年在ImageNet大規(guī)模視覺識別挑戰(zhàn)賽上,,Hinton等人研制的AlexNet卷積神經(jīng)網(wǎng)絡(luò)取得了顯著成功,這可以看作第三波人工智能浪潮的起點,。
2016年DeepMind研制的AlphaGo圍棋程序戰(zhàn)勝世界冠軍李世石和柯潔,,引起了全世界的關(guān)注。
2017年Google的7名人員提出Transformer模型,,提出自注意力機(jī)制,,成為深度學(xué)習(xí)的主流模型。
2018年DeepMind發(fā)布了AlphaFold,,在蛋白質(zhì)結(jié)構(gòu)預(yù)測中展示出驚人的預(yù)測能力,,開辟了AI for science的新方向。
2023年OpenAI發(fā)布ChatGPT3.5,,引領(lǐng)了以大語言模型(LLM)為標(biāo)志的生成式人工智能新浪潮,。
DeepSeek的橫空出世與上述重大事件一樣,都是第三波人工智能浪潮的里程碑事件,。
為什么說DeepSeek發(fā)布V3和R1模型是與OpenAI發(fā)布ChatGPT 3.5一樣的里程碑事件,?
從DeepSeek發(fā)布后用戶和大企業(yè)的狂熱接納情形,可以看出其巨大影響力,。ChatGPT發(fā)布后兩個月用戶就達(dá)到1億,,全球為之驚嘆。2025年1月20日,,DeepSeek-R1發(fā)布上線,,在沒有任何廣告投放情況下,7天之內(nèi)用戶增長超過1億,,創(chuàng)造了用戶增長速度新的世界紀(jì)錄,。DeepSeek在蘋果應(yīng)用商店的下載量占據(jù)了157個國家/地區(qū)的第一名位置(包括美國),在相同時間段超過ChatGPT首次發(fā)布時的下載量,。
GitHub是全球最大的代碼托管網(wǎng)站,,GitHub的星(Star)數(shù)?(即GitHub平臺項目頁面上的Star按鈕被用戶主動點擊的次數(shù)),,代表項目受歡迎的程度和社區(qū)的認(rèn)可度。目前,,DeepSeek的GitHub星數(shù)已超越了OpenAI,。
全球人工智能的龍頭企業(yè)紛紛擁抱DeepSeek,也凸顯了其不可抗拒的影響力,。微軟最早宣布將DeepSeek-R1模型添加到云平臺Azure AI Foundry,,開發(fā)者可用于構(gòu)建基于云的應(yīng)用程序和服務(wù)。接著,,AWS(亞馬遜云科技),、英偉達(dá)、AMD等公司相繼宣布在其AI服務(wù)平臺上部署DeepSeek-R1模型,。
不管相關(guān)勢力如何抵制,,少數(shù)媒體如何惡意中傷,公司和用戶都是根據(jù)DeepSeek的實際效果和親身體驗做出選擇,,DeepSeek推出的高效率,、低成本的推理模型和開源的商業(yè)模式,必將引領(lǐng)人工智能行業(yè)新潮流,。
DeepSeek的V3和R1模型廣受歡迎,,是因為在模型算法和系統(tǒng)軟件層次都有重大創(chuàng)新。
首先是算法層次的創(chuàng)新,,DeepSeek采用了新的混合專家架構(gòu)(MoE),,每一層有256個路由專家和1個共享專家。在每次前向傳播過程中,,只激活一小部分專家來進(jìn)行計算,。雖然DeepSeek-V3是一個671B參數(shù)的大模型,但模型的任何函數(shù)調(diào)用和傳遞只使用約37B參數(shù),,使其訓(xùn)練成本大為降低,。
在算法層面,DeepSeek還有一個降低成本的重大創(chuàng)新,,即低秩注意力機(jī)制(也稱為多頭潛在注意力機(jī)制),。這一發(fā)明對巨大的注意力機(jī)制矩陣進(jìn)行了壓縮,減少參與運算的參數(shù)數(shù)量,,把顯存占用降到了其他大模型的5%~13%,,極大提升了模型運行效率。
DeepSeek更重要的創(chuàng)新是在推理層面,。OpenAI發(fā)布的o1推理模型是閉源的,,其他的企業(yè)都搞不清楚OpenAI是如何基于預(yù)訓(xùn)練模型構(gòu)建推理模型的。通過開源方式,,DeepSeek把實現(xiàn)低成本推理的奧秘告訴全世界,,為發(fā)展推理模型開辟了一條新路,。DeepSeek揭示了一個事實,即推理模型的開發(fā)比想象中更為簡單,,各行各業(yè)都可以做,。
傳統(tǒng)的強(qiáng)化學(xué)習(xí)需要大量標(biāo)注數(shù)據(jù),成本很高,。DeepSeek另辟蹊徑,采用全自動的強(qiáng)化學(xué)習(xí)取代監(jiān)督微調(diào)和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),,用機(jī)器直接推測的方式來預(yù)測分?jǐn)?shù),,顯著提高了強(qiáng)化學(xué)習(xí)的效率。
與DeepMind和OpenAI一樣,,DeepSeek的貢獻(xiàn)主要還是工程創(chuàng)新和優(yōu)化,,在人工智能的基礎(chǔ)理論上并沒有重大突破。但這些創(chuàng)新大大降低了推理成本,,打破了對高算力的迷信,,對人工智能產(chǎn)業(yè)的發(fā)展有重大意義。
DeepSeek的科技震撼波及全球
中國基金報:2月3日,,中國醫(yī)學(xué)科學(xué)院學(xué)部委員,、生物學(xué)家饒毅發(fā)表了題為《鴉片戰(zhàn)爭以來,中國對人類最大的科技震撼:DeepSeek》的文章,,認(rèn)為“1840年至今的185年來,,在科學(xué)和技術(shù)相關(guān)的方面,中國出現(xiàn)的對人類最大的震撼是DeepSeek”,。饒毅教授對DeepSeek的評價是否過于夸張,?
李國杰:饒毅教授稱“DeepSeek是鴉片戰(zhàn)爭以來中國對全世界最大的科技震撼”,我認(rèn)為,,這一評價有一定的道理,,并非夸張。中國在航天,、高鐵等領(lǐng)域都取得過震驚世界的科技成就,,大疆無人機(jī)、宇樹機(jī)器人在全球的市場占有率高達(dá)60%以上,,但這些成就并沒有引起全球性的科技震撼,。
DeepSeek掀起這么大的沖擊波,是美國政府和一些龍頭企業(yè)妄圖以人工智能獨霸全球夢想破滅造成的,。特朗普上臺第二天就簽署法案,,啟動星際之門計劃,要投資5000億美元,,打造人工智能的基礎(chǔ)設(shè)施,??梢姡绹讶斯ぶ悄墚?dāng)成美國稱霸世界的頭等大事,。
DeepSeek帶來的最大“震撼”,,是從中國杭州殺出一匹黑馬,闖出一條發(fā)展人工智能的新路,,中國從“追趕者”變?yōu)椤耙?guī)則改寫者”,,第一次在核心技術(shù)領(lǐng)域以顛覆性創(chuàng)新而非規(guī)模優(yōu)勢挑戰(zhàn)西方霸權(quán)。
DeepSeek在模型算法和工程優(yōu)化方面所進(jìn)行的系統(tǒng)級創(chuàng)新,,為在受限資源下探索通用人工智能開辟了新的道路,。傳統(tǒng)大模型遵循的是一條“由通到專”的人工智能發(fā)展思路,,與之相反,,DeepSeek追求的是“由專到通”的人工智能發(fā)展路徑,通過引領(lǐng)人工智能技術(shù)生態(tài)的形成,,邁向全社會分享的通用人工智能之路,。
雖然以O(shè)penAI為代表的生成式人工智能紅紅火火,但多數(shù)企業(yè)不敢將自己的數(shù)據(jù)交給私有AI平臺生成自己的垂直模型,,因為害怕提交的數(shù)據(jù)會泄露自己的技術(shù)機(jī)密,。人工智能之所以在各個行業(yè)難以落地,這可能是一個根本性的原因,。
DeepSeek的出現(xiàn)化解了這一難題,。歐洲、印度等國人工智能的發(fā)展一直落后于美國和中國,,現(xiàn)在可以將DeepSeek提供的小而精的模型下載到本地,,即使斷網(wǎng)也可以“蒸餾”出高效率的垂直模型,這讓他們看到了希望,。也就是說,,DeepSeek的科技震撼,不僅僅是對美國,,也是對全球的震撼,。
人工智能不同于資本密集型和經(jīng)驗積累型的集成電路產(chǎn)業(yè),不僅要“燒錢”,,更要“燒腦”,,本質(zhì)上是比拼人的智力的新興產(chǎn)業(yè)。因此,,人工智能產(chǎn)業(yè)具有明顯的不對稱性,,一個具有100多個聰明頭腦的小企業(yè)就可以挑戰(zhàn)市值上萬億美元的龍頭企業(yè)。
DeepSeek給全球的震撼具有顛覆性,但DeepSeek只是中國具有潛力的人工智能企業(yè)之一,。
近日,,《麻省理工科技評論》刊發(fā)了一篇題為《關(guān)注DeepSeek之外的四家中國人工智能初創(chuàng)公司》的報道,指出階躍星辰(Stepfun),、面壁智能(Model Best),、智譜AI、無問芯穹(Infinigence AI)四家企業(yè)同樣展現(xiàn)出不遜于DeepSeek的技術(shù)實力與全球競爭力,。
中國人工智能企業(yè)的崛起,,正在重構(gòu)全球AI供應(yīng)鏈版圖;開源模型將基礎(chǔ)模型層轉(zhuǎn)化為普惠資源,,正在為應(yīng)用開發(fā)者開啟創(chuàng)新之門,;算法革命正在大幅度降低訓(xùn)練成本,打破了單一依賴算力堆砌的迷信,。
中國基金報:DeepSeek的巨大影響是否預(yù)示規(guī)模法則(Scaling Law)已經(jīng)走到盡頭,?“大力出奇跡”的技術(shù)路線是否還能延續(xù),?算力究竟在人工智能的發(fā)展中起什么作用,?
李國杰:2020年1月,OpenAI發(fā)表論文《神經(jīng)語言模型的規(guī)模法則》(Scaling Laws forNeural Language Models),,提出規(guī)模法則:“通過增加模型規(guī)模,、數(shù)據(jù)量和計算資源,可以顯著提升模型性能,?!?/strong>
在AI領(lǐng)域,規(guī)模法則被認(rèn)為是“公理”,,俗稱“大力出奇跡”,,OpenAI等龍頭企業(yè)和美國的AI投資界把它當(dāng)成制勝法寶。
但是,,規(guī)模法則不是像牛頓定律一樣經(jīng)過無數(shù)次驗證的科學(xué)定律,,而是OpenAI等公司近幾年研制大模型的經(jīng)驗歸納。從科學(xué)研究的角度看,,屬于一種對技術(shù)發(fā)展趨勢的猜想,;從投資的角度看,屬于對某種技術(shù)路線的押注,。人工智能是對未來技術(shù)的探索,,技術(shù)路線存在多種可能。人工智能本身也存在多元化的目標(biāo),,探索的道路上有很多高山需要去攀登,,攀登一座高山的路徑也不止一條。把一種信仰或猜想當(dāng)成科學(xué)公理,不是科學(xué)的態(tài)度,。
鼓吹規(guī)模法則的人,,常常以強(qiáng)化學(xué)習(xí)之父理查德·薩頓(Richard S. Sutton)的文章“苦澀的教訓(xùn)”作為追求高算力的依據(jù):“研究人員曾一次又一次試圖通過精巧的工程設(shè)計來提升性能,但最終都敗給了簡單粗暴的‘加大算力’方案,,歷史證明,,通用方法總是在AI領(lǐng)域勝出?!?/strong>
但是,,薩頓本人這兩年對規(guī)模法則做了深刻的反思。他指出,,雖然規(guī)模法則在提升模型性能方面確實有效,,但它并不是解決所有問題的萬能鑰匙。AI系統(tǒng)不僅需要具備強(qiáng)大的計算能力,,還需要具備持續(xù)學(xué)習(xí),、適應(yīng)環(huán)境、理解復(fù)雜情境等能力,,這些能力往往難以通過簡單地增加算力來實現(xiàn),。
但現(xiàn)在就說規(guī)模法則已經(jīng)走到盡頭,也沒有根據(jù),。與人腦的神經(jīng)連接復(fù)雜性相比,,現(xiàn)在的人工神經(jīng)網(wǎng)絡(luò)至少還有上百倍的差距。繼續(xù)擴(kuò)大神經(jīng)網(wǎng)絡(luò)的規(guī)模和增加訓(xùn)練的數(shù)據(jù)量,,是否能取得與投入相稱的回報,,還要看今后的實際效果。
但GPT-5遲遲不能問世,,可能說明規(guī)模擴(kuò)張的效果已經(jīng)不太明顯,。圖靈獎得主楊立昆(YannLeCun)和OpenAI前首席科學(xué)家伊利亞·蘇茨克維(IlyaSutskever)等人直言,規(guī)模法則已觸及天花板,。
DeepSeek的出現(xiàn),,逼迫AI界嚴(yán)肅地思考這一技術(shù)發(fā)展路線問題:是繼續(xù)燒錢豪賭,還是另辟蹊徑,,在算法優(yōu)化上下更多功夫,?
DeepSeek的成功似乎預(yù)示著“小力也可出奇跡”,或者說“算法和模型架構(gòu)優(yōu)化也可以出奇跡”,。隨著時間的推移,,AI擴(kuò)展方法也在發(fā)生變化:最初是模型規(guī)模,后來是數(shù)據(jù)集大小和數(shù)據(jù)質(zhì)量,,現(xiàn)在是推理時間和合成數(shù)據(jù),。
DeepSeek推出的V3是預(yù)訓(xùn)練模型,R1是推理模型,對全球沖擊比較大的主要是R1模型,,某種意義上是把人工智能的關(guān)注重點轉(zhuǎn)移到推理計算上,。所謂規(guī)模法則也可以表現(xiàn)為在探索推理時間的擴(kuò)展行為,即模型在推理階段(而非訓(xùn)練階段)通過增加計算資源來提升性能,。
DeepSeek的成功并沒有否定算力在人工智能發(fā)展中的關(guān)鍵作用,。實際上,由于用于推理的設(shè)備比訓(xùn)練設(shè)備多得多,,所以推理所需要的算力將來會成為主要需求,。通過算法優(yōu)化提高模型的效率十分重要,走節(jié)省算力的綠色發(fā)展之路是我們的基本選擇,,但算力肯定是解決人工智能問題的必要條件,,也不可忽視。
中國基金報:為什么DeepSeek對英偉達(dá)的股價會產(chǎn)生這么大的沖擊,?這種沖擊是短期還是中長期的,,背后的深層邏輯是什么?
李國杰:第三波人工智能浪潮興起以來,,美國政府和投資界形成的基本信念是:發(fā)展人工智能需要高算力,,而目前實現(xiàn)人工智能計算性能最高的芯片就是英偉達(dá)的GPU。因此,,只要控制GPU,,美國就能在人工智能領(lǐng)域獨霸全球,。
DeepSeek的崛起動搖了硅谷與華爾街的基本信念,。由于市場對高端GPU芯片需求下降的擔(dān)憂,英偉達(dá)股價單日暴跌17%,,市值縮水約6000億美元,,創(chuàng)下美國上市公司單日最大損失紀(jì)錄。
這種沖擊堪比1957年蘇聯(lián)衛(wèi)星上天的“斯普特尼克時刻”,,迫使美國重新審視其技術(shù)霸權(quán)的基礎(chǔ),。
但DeepSeek是否會真正降低對算力的需求,現(xiàn)在還不能下結(jié)論,。
1865年,,經(jīng)濟(jì)學(xué)家杰文斯提出了一個關(guān)于技術(shù)進(jìn)步的悖論:“當(dāng)技術(shù)進(jìn)步提高了效率,資源消耗不僅沒有減少,,反而激增,。”福特的流水線讓汽車制造更快,、更便宜,,但最終帶來的卻是全球石油消耗的暴漲。有時,單個產(chǎn)品越便宜,,反而會刺激整體采購量增加,。人類對智能產(chǎn)品的需求肯定會持續(xù)增加,即便單個產(chǎn)品算力成本下降,,整個社會的算力消耗可能還會增加,。
DeepSeek對“高投入、高算力”的研發(fā)路徑會產(chǎn)生一定沖擊,,有些正在部署的智能計算中心猶豫觀望,,部分AI上游算力市場可能會受到一定負(fù)面影響,美股科技巨頭的超額估值可能會下調(diào),。
但另一方面,,DeepSeek模型的低成本優(yōu)勢有利于AI下游應(yīng)用場景的快速落地,有助于加速相關(guān)產(chǎn)業(yè)的智能化進(jìn)程,,為機(jī)器人,、自動駕駛汽車、智慧城市,、智能辦公,、消費電子等下游板塊帶來利好。
DeepSeek將AI的應(yīng)用引向C端市場,,更多企業(yè)和普通用戶都會成為AI的消費者,,計算資源的需求也會隨之水漲船高。
DeepSeek對美國AI巨頭的沖擊不是短期的,,隨著博弈的進(jìn)一步發(fā)展,,一定會對其產(chǎn)生中長期的影響。因為AI應(yīng)用對高端GPU需求降低,,讓更多的芯片和整機(jī)企業(yè)參與競爭,,人工智能新增的市場最后花落誰家,現(xiàn)在還很難斷定,。中國企業(yè)更有希望在AI市場上占有一席之地,。DeepSeek明顯提振了國內(nèi)企業(yè)自立自強(qiáng)的信心,民族自信心的增強(qiáng)將為A股市場注入新的活力,。
中國基金報:對于DeepSeek的橫空出世,,有人認(rèn)為是國運級別的創(chuàng)新,也有人認(rèn)為不過是一場新的鬧劇,,將曇花一現(xiàn),。對此,你怎么看,?DeepSeek在何種程度上影響了全球人工智能的發(fā)展,,其代表的AI大模型是否將成為市場主流,?如果不是的話,何種類型的AI大模型將成為市場主流,?
李國杰:DeepSeek崛起的背后是中美兩國的科技博弈,,絕不是一場曇花一現(xiàn)的鬧劇。但將一家小公司提上政治高度,,推到大國博弈的前線,,背上“國運級別創(chuàng)新”的沉重十字架,對初創(chuàng)公司的發(fā)展沒有好處,。
DeepSeek對全球人工智能發(fā)展有里程碑式的意義,,其主要的價值是打破了“高算力和高投入是發(fā)展人工智能唯一途徑”和“集成電路制程優(yōu)勢=人工智能技術(shù)霸權(quán)”的迷信,增強(qiáng)了人工智能業(yè)界走開源道路的信心,。用開源將AI入場券“平民化”,,促進(jìn)AI在各個國家、眾多行業(yè)的應(yīng)用和創(chuàng)新,。
DeepSeek不僅是技術(shù)突破者,,更是規(guī)則重構(gòu)者,對中國實現(xiàn)科技突圍具有重要的啟示作用,。DeepSeek的崛起說明,,AI不再是簡單堆砌算力的暴力游戲,而是進(jìn)入了以算法和模型架構(gòu)優(yōu)化為主,,同時高度重視數(shù)據(jù)質(zhì)量與規(guī)模,、理性提高算力的新時期。
由于美國政府的封鎖,,目前我國無法獲取最先進(jìn)的芯片制程工藝,,可能會落后國外兩代以上。DeepSeek給我們的啟示是,,我們需要在有限算力條件下,,通過算法和軟件的協(xié)同創(chuàng)新,,充分發(fā)揮硬件的極致性能,,挖掘所有可能的優(yōu)化空間。DeepSeek R1發(fā)布以后,,華為,、海光、龍芯等芯片設(shè)計公司迅速和DeepSeekR1綁定,,推出在各個行業(yè)實用的推理平臺,,DeepSeek也接入了國家超算互聯(lián)網(wǎng)。我國的算力資源巨大,,國內(nèi)的人工智能模型與美國的水平十分接近,,幾乎并駕齊驅(qū),,只要做好算力資源與人工智能平臺的優(yōu)化適配,我國的人工智能科研和應(yīng)用一定會走在世界前列,。
DeepSeek是一家成立不到兩年的小公司,,全球人工智能的賽道上有很多公司在你追我趕。一家公司一時的技術(shù)領(lǐng)先,,并不是“護(hù)城河”,,關(guān)鍵是看發(fā)展的速度快不快。
總體來看,,人工智能還處在發(fā)展初期,,現(xiàn)在就斷定哪一種人工智能大模型是市場主流,還為時過早,。只要我國有一批創(chuàng)新企業(yè)像DeepSeek那樣,,堅持做引領(lǐng)性的科研而不是跟隨,中國對形成人工智能的主流模型一定會做出與國力相稱的貢獻(xiàn),。
中國基金報:2023年4月,,你在接受我們專訪時曾表示,中國要走低成本的人工智能發(fā)展之路,,人工智能界需要“晶體管”式的重大發(fā)明,,才能使大模型走上良性發(fā)展之路。那么,,DeepSeek是否已經(jīng)探索出了一條低成本的人工智能發(fā)展之路,?人工智能界的“晶體管”式的重大發(fā)明是否已經(jīng)可以看到希望的曙光?
李國杰:低成本是技術(shù)普及的基本要求,,蒸汽機(jī),、電力和計算機(jī)的普及都是其成本降低到大眾可以接受時才做到的,人工智能肯定也會走這條路,。
目前,,人工智能產(chǎn)業(yè)的成本還很高,主要表現(xiàn)在算力資源,、數(shù)據(jù)獲取與處理,、算法研發(fā)的人才門檻和人工智能系統(tǒng)部署維護(hù)的復(fù)雜性等。為了降低人工智能的成本,,企業(yè)界和科技界已經(jīng)做了大量的努力,,包括優(yōu)化算力體系、高效模型架構(gòu),、建設(shè)開源生態(tài)等,。這幾年,人工智能成本已經(jīng)有了數(shù)量級的下降,,但人工智能要做到大規(guī)模普及,,還需要更大幅度降低成本,。
近日,華裔科學(xué)家李飛飛團(tuán)隊的研究人員,,以阿里通義千問(Qwen)模型為基礎(chǔ),,通過蒸餾谷歌的AI推理模型Gemini 2.0 Flash Thinking Experimental,并結(jié)合監(jiān)督微調(diào)(SFT)技術(shù),,使用16個英偉達(dá)H100GPU進(jìn)行了26分鐘的訓(xùn)練,,以不到50美元的云計算費用成功訓(xùn)練出s1模型,其性能超過了Open AI的o1-preview模型,。這種創(chuàng)新的訓(xùn)練方法以令人吃驚的低成本,,做到了與高端模型相媲美的性能,顯示出人工智能的低成本化還有巨大的提升空間,,為人工智能領(lǐng)域帶來新的發(fā)展思路,。
我們在為推理模型的低成本化歡欣鼓舞時,應(yīng)注意到一個事實,,那就是目前推理模型的低成本是以預(yù)訓(xùn)練模型(基礎(chǔ)模型)的高成本為前提,。我們真正追求的不是人工智能某些步驟的低成本,而是整體的低成本,,但要實現(xiàn)這個目標(biāo)還要走很長的路,。
電子計算機(jī)剛問世的時候采用真空電子管,難以實現(xiàn)低成本,。1947年發(fā)明了晶體管,,1958年發(fā)明了集成電路。在摩爾定律的推動下,,集成電路的集成度飛速提高?,F(xiàn)在最高性能的GPU包含2080億個晶體管,相當(dāng)于1美元可以買到500多萬個晶體管,,單個晶體管的成本已下降了上千萬倍,。晶體管成本的急速下降為人類的信息化做出了不可磨滅的貢獻(xiàn)。
所以,,我曾經(jīng)說過,,人工智能界需要“晶體管”式的重大發(fā)明,才能使大模型走上良性發(fā)展之路,。DeepSeek為探索低成本的人工智能發(fā)展之路做出了重要貢獻(xiàn),,但人工智能界的“晶體管”式的重大發(fā)明目前還沒有看到苗頭。偉大的發(fā)現(xiàn)從來不出自計劃,,說不定哪一天會突然冒出來。我相信,,只要堅持做原創(chuàng)性的基礎(chǔ)研究,,人工智能界類似晶體管的重大發(fā)明一定會出現(xiàn),。
中國基金報:有人認(rèn)為,DeepSeek之所以受關(guān)注,,更多是開源和閉源路線之爭,。對此,你怎么看,?此外,,怎么看目前全球AI大模型發(fā)展的競爭格局?中國是在繼續(xù)跟跑,,還是已經(jīng)到了“并跑”狀態(tài),?
李國杰:DeepSeek推出的V3和R1模型,雖然有重大的技術(shù)突破,,但還是基于Transformer結(jié)構(gòu)的改進(jìn),,核心技術(shù)上并沒有和國外拉開距離。過去這幾年,,開源大模型的性能始終與龍頭企業(yè)的閉源大模型有一代以上的差距,,這一次DeepSeek的性能追上了閉源模型,大大增強(qiáng)了開源社區(qū)的信心,,這是了不起的成就,。
圖靈獎得主楊立昆認(rèn)為“對DeepSeek崛起的正確解讀,應(yīng)是開源模型正在超越閉源模型”,。這一評價十分中肯,,因為改變AI發(fā)展模式比單項技術(shù)的突破更重要。
長期以來,,美國的AI龍頭公司夸大開源AI的安全風(fēng)險,,力圖通過監(jiān)管抑制開源AI。事實上,,開源模型對于全球AI供應(yīng)鏈至關(guān)重要,,發(fā)展中國家尤其需要開源AI技術(shù)。若美國繼續(xù)在這一領(lǐng)域設(shè)置障礙,,中國就有望在開源AI全球供應(yīng)鏈中占據(jù)核心地位,,從而使更多企業(yè)轉(zhuǎn)向中國企業(yè)而非美國企業(yè)的技術(shù)方案。
DeepSeek發(fā)布以后,,OpenAI的CEO Altman承認(rèn),,OpenAI過去在開源方面一直站在“歷史錯誤的一邊”。他表示:“需要想出一個不同的開源策略,?!?025年1月31日,OpenAI宣布,,免費向用戶開放推理模型o3-Mini,,但其核心技術(shù)還是封閉的,,仍然強(qiáng)調(diào)開源“不是我們當(dāng)前的最高優(yōu)先事項”。這表明,,OpenAI短期內(nèi)不會在開源方面有實質(zhì)性的轉(zhuǎn)變,。
真正的AI競爭,不僅僅是技術(shù)和模型的競爭,,更是生態(tài)系統(tǒng),、商業(yè)模式,以及價值觀的競爭,。開源模型讓AI民主化,,每個開發(fā)者都能輕松調(diào)用強(qiáng)大AI工具,不再受大公司的約束,,AI的進(jìn)化速度將會明顯提升,。DeepSeek的開源戰(zhàn)略將向歷史證明:在這場AI競賽中,誰擁抱開源,,誰就能贏得未來,。
OpenAI剛發(fā)布ChatGPT的時候,雖然中國馬上掀起“百模大戰(zhàn)”,,但大模型的實際水平存在代際差距,。經(jīng)過這幾年的市場競爭和優(yōu)勝劣汰,中美的差距明顯縮小,。我國有好幾家優(yōu)秀的人工智能公司冒了出來,,大模型的性能與國外先進(jìn)水平差不多,都屬于世界第一梯隊,。
因此,,就整個人工智能領(lǐng)域而言,在有些研究方向上中國還在跟跑,,但在推理模型等許多方向上,,中國和美國已經(jīng)處于你追我趕的并跑狀態(tài)。人工智能是探索未知領(lǐng)域的研究,,并沒有確定的研究方向,。進(jìn)入并跑狀態(tài)以后,就不要過于在意與美國相差幾個月,,可以你做你的,、我做我的,比誰能發(fā)現(xiàn)正確的研究方向,。中國的人工智能人才總量比美國多,,現(xiàn)在發(fā)表的論文數(shù)、引用數(shù)和授權(quán)專利數(shù)都遠(yuǎn)遠(yuǎn)超過美國。但是頂尖的AI人才還是美國多,,我們在人工智能的研究實力上與美國還有一些差距,??偟膩碇v,,要打贏這一場事關(guān)國運的科技戰(zhàn),還要做長期的艱苦努力,,但年輕一代正在成為科研的主力,,我們要有信心在人工智能的研究和應(yīng)用上走在美國前面。
中國基金報:DeepSeek的崛起對業(yè)界有何啟發(fā),?為什么DeepSeek沒有在上?;驀鴥?nèi)人工智能發(fā)展的高地北京誕生?
李國杰:最近幾年,,不論是國防戰(zhàn)線還是民用領(lǐng)域,,中國的科技突破出現(xiàn)類似噴泉的態(tài)勢,轟動全球的科研成果不斷冒出來,。這些成果的出現(xiàn)不是偶然的,,而是中國的科技和經(jīng)濟(jì)發(fā)展經(jīng)過多年積累必然要走上的一個新臺階。載人航天工程,、第六代戰(zhàn)斗機(jī),、052D型導(dǎo)彈驅(qū)逐艦等與國防有關(guān)的重大成果,與DeepSeek,、宇樹機(jī)器人等創(chuàng)新型人工智能產(chǎn)品的出現(xiàn),,似乎有著不同的發(fā)展途徑,建立科技發(fā)展的新型舉國體制需要考慮兩者的區(qū)別,。
在市場化程度高,、技術(shù)迭代快的領(lǐng)域(如AI、生物科技等),,通過市場競爭贏者勝出的機(jī)制可能比集中規(guī)劃的建制化研究更有效,。未來的科技政策既要支持國家隊在戰(zhàn)略安全領(lǐng)域沖鋒陷陣,同時要大力支持民間力量在充分競爭中自下而上地突破技術(shù)封鎖,。人工智能領(lǐng)域的探索性很強(qiáng),,目前這一領(lǐng)域在全球起引領(lǐng)作用的不是美國和西歐的國家實驗室,而是DeepMind和OpenAI這樣的創(chuàng)新型企業(yè),。在中國,,DeepSeek這一類創(chuàng)業(yè)公司也起到了引領(lǐng)作用。
DeepSeek的成功與其創(chuàng)始人梁文峰的人才管理路線有很大關(guān)系,。梁文峰選擇了一條與眾不同的用人策略,。他們拒絕經(jīng)驗豐富的人才,而選擇初出茅廬的年輕人。
DeepSeek有一條不成文的用人規(guī)則:招聘時工作經(jīng)驗超過8年者,,直接拒聘,;超過5年,需要特別出色才能入選,。DeepSeek團(tuán)隊成員幾乎全是國內(nèi)頂尖高校的應(yīng)屆畢業(yè)生或博士實習(xí)生,。
DeepSeek相信,真正的創(chuàng)新往往來自那些沒有包袱的人,,有極致熱情的人,,而不是習(xí)慣用經(jīng)驗找答案的人。這種用人理念為公司帶來了令人驚喜的創(chuàng)新動力,?!?0后”和“00后”的中國年輕人是在相對充裕的物質(zhì)條件下成長起來的,他們更多是為了興趣和熱愛而努力,,已經(jīng)開始平視美西方國家,,具有“敢為天下先”的勇氣和自信。他們是中國科技自立自強(qiáng)的希望,。
作為DeepSeek的誕生地,,杭州市政府出臺了一系列鼓勵創(chuàng)新創(chuàng)業(yè)的政策。同時,,杭州擁有完善的產(chǎn)業(yè)鏈配套和豐富的人才資源,,為其發(fā)展提供了良好的創(chuàng)業(yè)環(huán)境。DeepSeek出名以后,,民間流傳起關(guān)于“杭州六小龍”的故事,,深度求索、宇樹科技,、游戲科學(xué),、云深處、群核科技,、強(qiáng)腦科技六家初創(chuàng)公司有一些共同的特點:都由年輕科技人才創(chuàng)辦,,都屬于人工智能領(lǐng)域,都屬于民營小微企業(yè),。這些具有世界影響的公司都出自杭州,,肯定不是偶然的,希望杭州的經(jīng)驗?zāi)茉谄渌鞘写罅ν茝V,。
但是,,我國在人工智能領(lǐng)域被全世界關(guān)注的公司不僅僅出自杭州。上面提到的階躍星辰,、面壁智能,、智譜AI都是在北京注冊的公司,,無問芯穹來自上海。當(dāng)這些公司和以后可能冒出來的AI公司都成為世界級的大公司時,,中國無疑將成為人工智能的世界強(qiáng)國,。
《中國基金報》對本平臺所刊載的原創(chuàng)內(nèi)容享有著作權(quán),,未經(jīng)授權(quán)禁止轉(zhuǎn)載,否則將追究法律責(zé)任,。
授權(quán)轉(zhuǎn)載合作聯(lián)系人:于先生(電話:0755-82468670)
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1131305.html
溫馨提示:投資有風(fēng)險,,入市須謹(jǐn)慎,。本資訊不作為投資理財建議。