A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

如何馴服AI大模型“能耗巨獸”

如何馴服AI大模型“能耗巨獸”

來源:恩智浦官網(wǎng)
AIGC及其背后的大模型,是不折不扣的“能耗巨獸”。在部署大模型的過程中,,AI工作負載帶來的功耗和成本挑戰(zhàn),,已然成為產(chǎn)業(yè)鏈的“阿喀琉斯之踵”,。近期,,螞蟻集團聯(lián)合多所高校發(fā)布的《圍繞綠色計算發(fā)展機遇的一項調(diào)查》(以下簡稱“調(diào)查”)指出,,綠色措施,、節(jié)能人工智能,、節(jié)能計算系統(tǒng)和可持續(xù)發(fā)展的人工智能用是構建綠色計算的四個關鍵,,強調(diào)了人工智能的節(jié)能降耗對于計算產(chǎn)業(yè)的意義,。與此同時,恩智浦,、英特爾,、英偉達等半導體企業(yè)也在積極應對大模型帶來的能耗挑戰(zhàn),從架構創(chuàng)新,、軟硬件協(xié)同方案,、網(wǎng)絡平臺等多個層面,為大模型部署提質(zhì)降耗,。

為“大腦”分擔任務 半導體廠商的架構創(chuàng)新方法論

大模型作為近年來最重要的新興計算場景,,對芯片的算力和內(nèi)存需求都提出了極大挑戰(zhàn)。北京大學集成電路學院研究員賈天宇向《中國電子報》記者表示,,在傳統(tǒng)摩爾定律難以為繼的背景下,,半導體企業(yè)需要通過利用架構設計、制造工藝,、先進封裝等多個層級協(xié)同的設計手段來滿足大模型的計算需求,。例如,通過采用異構計算,、存算一體,、三維堆疊等先進計算理念降低芯片的能耗,提高單一芯片的性能和能效,。此外,,針對大模型的大算力需求,芯片的可擴展性也變得尤為重要,。重視多芯片的系統(tǒng)級擴展和互聯(lián)技術,,也成為半導體企業(yè)技術研發(fā)中不可忽視的重要內(nèi)容。

“在控制大模型帶來的能耗和成本方面,,半導體企業(yè)可以通過優(yōu)化計算架構,、提升能效等措施,降低大模型的能耗和成本,。但針對大規(guī)模的大模型訓練,,需要與軟件生態(tài)、數(shù)據(jù)中心建設等多環(huán)節(jié)配合,,共同為企業(yè)和開發(fā)者提供更具成本效益的解決方案,。”賈天宇說,。

如賈天宇所說,,架構創(chuàng)新素來被視為實現(xiàn)芯片技術突破的發(fā)動機。在采訪中,多家半導體企業(yè)負責人都向記者闡述了基于架構創(chuàng)新和優(yōu)化為大模型增效降耗的思路,。

長期以來,,人工智能及其熱門應用常常被喻為“大腦”,比如自動駕駛被喻為“車輪上的大腦”,。但是,,人腦并不是僅僅依靠大腦工作,腦干,、小腦也承擔了許多任務,,比如控制心跳和體溫,保持身體的穩(wěn)定性,、協(xié)調(diào)性等,。如果大腦進行所有的決策和控制,人體就很難負擔大腦需要的能量,。

比照包含大腦,、小腦、腦干的人腦系統(tǒng),,恩智浦半導體執(zhí)行副總裁兼首席技術官Lars Reger為記者描述了一種更加高效節(jié)能的計算體系:以AI算力芯片為“大腦”,,進行高效能的計算和加速;以網(wǎng)關處理器為“小腦”,,實現(xiàn)不同功能區(qū)的互聯(lián)和集成,,以及異構網(wǎng)絡中的數(shù)據(jù)處理;以MCU,、感知芯片、聯(lián)網(wǎng)芯片作為“腦干”,,實現(xiàn)感知和實時任務處理,。

“有的車廠CEO告訴我們,由于能耗的問題,,他們不得不降低汽車的續(xù)航,,這主要是因為現(xiàn)有的技術架構不夠高效。所以在開發(fā)系統(tǒng)時,,我們要確保在正常運行的情況下,,不需要時刻激活大腦的功能,只要小腦就可以了,。比如我們在開車的時候,,更多是基于平時的規(guī)則和訓練下意識地駕駛,只有遇到挑戰(zhàn)的時候才需要用到大腦,?!盠ars Reger向《中國電子報》記者表示。

據(jù)悉,恩智浦已經(jīng)將這套計算理念集成到了智能駕駛的技術架構中,,架構中“小腦”和“腦干”部分由恩智浦的技術來保障的,。S32G作為網(wǎng)關處理器,扮演小腦的角色,;S32K等用于車身各部分控制的MCU,、S32R等傳感芯片、S32Z等域控制和區(qū)域控制芯片以及以太網(wǎng)連接產(chǎn)品,,共同構成“腦干”,,以應對能耗對續(xù)航的局限和挑戰(zhàn)。此外,,《中國電子報》記者獲悉,,恩智浦即將推出最新的5納米級旗艦產(chǎn)品,能夠把數(shù)據(jù)從車輛傳輸?shù)娇刂茊卧?/p>
跟著最新算法走隨時提供軟硬件協(xié)同方案

隨著業(yè)界對大模型的研發(fā)和部署逐步深入,,新的壓縮,、調(diào)優(yōu)方式層出不窮,從算法和框架層面實現(xiàn)對大模型的提效降耗,。但算法,、框架的更新,需要半導體廠商及時跟上,,提供相應的軟硬件協(xié)同方案,,才能實現(xiàn)新算法、新框架的部署,。

比如,,大模型的調(diào)優(yōu)方式,正在從完全微調(diào)走向更加簡捷,、低功耗的微調(diào)方式,。螞蟻集團聯(lián)合多所高校發(fā)布的《圍繞綠色計算發(fā)展機遇的一項調(diào)查》提到,傳統(tǒng)的調(diào)優(yōu)方式會微調(diào)所有模型參數(shù),,使通用大型語言模型適應特定的目標任務,,這一過程稱為完全微調(diào)。然而,,當大模型的參數(shù)規(guī)模從百萬,、千萬向數(shù)億乃至萬億規(guī)模發(fā)展,完全微調(diào)會帶來更長的程序代碼運行時間和高昂的存儲成本,。為了解決這個問題,,更加簡捷的微調(diào)方法已成為大模型的研究熱點。比如PEFT(高效參數(shù)微調(diào))僅更新模型參數(shù)的子集或附加的模塊,,使大模型適配下游任務,,以降低微調(diào)所需的計算和存儲資源,;基于提示的微調(diào)則訓練大模型根據(jù)特定提示或指令生成響應,引導大模型做出更理想的決策和行動,。由于無需添加更多的訓練數(shù)據(jù),,基于提示的微調(diào)能節(jié)省大量的時間和成本,以實現(xiàn)更加綠色的計算,。

圍繞基于提示的微調(diào)等最新微調(diào)方式,,英特爾基于AI加速引擎和配套的軟件工具,進一步減少了微調(diào)所需的工作量,。第四代英特爾至強可擴展處理器中內(nèi)置了矩陣乘法加速器AMX,,能夠更快速地處理 BFloat16(BF16)或INT8數(shù)據(jù)類型的矩陣乘加運算,從而提升模型訓練和推理的性能,。尤其對于ChatGLM-6B等在開源微調(diào)代碼中支持CPU 自動混合精度的大模型,,開發(fā)者在啟動微調(diào)時加入CPU自動混合精度的使能參數(shù),就可以直接利用矩陣乘法加速器提升大模型的微調(diào)計算速度,。

英特爾院士,、大數(shù)據(jù)技術全球CTO戴金權向《中國電子報》記者表示,解題大模型功耗和成本壓力的關鍵,,是根據(jù)不同大模型的最新技術需求,,提供軟硬件協(xié)同的支撐方案。

“我們可以通過提供跨平臺的XPU架構和開放的AI軟件架構及優(yōu)化,,為預訓練,、微調(diào)、推理等不同的AI和大模型應用,,提供高效的開發(fā)部署平臺,。”戴金權告訴記者,。據(jù)他介紹,,英特爾在硬件架構方面,正在基于Gaudi AI加速器,,數(shù)據(jù)中心Max GPU,內(nèi)置AMX加速的第四代至強處理器,,以及邊緣和客戶端處理器為用戶提供XPU異構計算支持,。在軟件架構層面,英特爾和社區(qū)在PyTorch,、DeepSpeed,、HuggingFaceTransformers等開源項目開展合作,加入了在Intel XPU平臺上的眾多優(yōu)化,。同時,,英特爾的開源軟件工具IPEX,、BigDL、INC,、OpenVINO等,,對大模型提供專門的支持和加速。

加速與降耗并行 打造更加節(jié)能的基礎設施

數(shù)據(jù)中心是AIGC和大模型主要的基礎設施之一,,也是節(jié)能技術的重點發(fā)力領域,。隨著全球的熱點IT應用地區(qū)都在強調(diào)綠色數(shù)據(jù)中心,如何在降低能耗的同時釋放更高效能,,成為英偉達,、AMD等數(shù)據(jù)中心芯片供應商的必答題。

圍繞數(shù)據(jù)中心的減碳需求,,AMD宣布了到2025年為人工智能訓練和高性能計算應用程序帶來30倍能效提升的目標,。據(jù)AMD測算,30倍的能效提升將在2025年節(jié)省數(shù)十億千瓦時的電力,,使系統(tǒng)在五年內(nèi)完成單次計算所需的電力減少97%,。這一方面需要核心制程的提升,另一方面需要架構的改進和技術的創(chuàng)新來提高算力,。比如基于一顆第三代AMD EPYC服務器處理器和四個AMD Instinct MI250x GPU的加速節(jié)點,,AMD實現(xiàn)了在2020年的基準水平之上提高6.79倍能效。

英偉達也將加速計算作為減少功耗的主要策略,。加速庫是英偉達加速計算的核心,,目前英偉達面向計算機視覺、數(shù)據(jù)處理,、機器學習和 AI 等領域布局了300 個加速庫和400 個 AI 模型,。

除了提升計算單元的能效,計算單元構成的AI集群,,也對數(shù)據(jù)中心的整體功耗有著重要影響,。在計算單元互聯(lián)以構建AI集群,以及集群,、設備互聯(lián)構建AI計算網(wǎng)絡的過程中,,會產(chǎn)生大量網(wǎng)絡數(shù)據(jù)。若采用傳統(tǒng)的以太網(wǎng)架構,,會導致數(shù)據(jù)流的擁塞和延遲,,使系統(tǒng)無法有效利用GPU,從而提升了大模型訓練的時間和成本,。

在網(wǎng)絡平臺層面,,英偉達推出專門面向AI負載的以太網(wǎng)架構Spectrum-X。該架構基于內(nèi)置Spectrum-4 AISC芯片的交換機與Blue-Field DPU,,提升AI集群的資源利用和數(shù)據(jù)傳輸效率,。在對GPT-3的訓練中,,NVIDIA Spectrum-X 網(wǎng)絡平臺相比傳統(tǒng)以太網(wǎng)網(wǎng)絡架構,實現(xiàn)了的 1.7 倍的加速效果,。尤其針對數(shù)據(jù)中心常用的功率封頂措施,,Spectrum-4 ASIC能夠簡化網(wǎng)絡設計,提高了每瓦的性能,,幫助數(shù)據(jù)中心控制網(wǎng)絡功率預算,。

從計算架構的革新,軟硬件方案的更新,,到基礎設施算力和互聯(lián)方式的迭代,,半導體廠商正在從多個維度緩解大模型帶來的能耗壓力。而大模型的到來,,也在倒逼算力系統(tǒng)的創(chuàng)新,,為基礎軟硬件的各個節(jié)點帶來新的市場機會。

作者丨張心怡
編輯丨趙晨
美編丨馬利亞
監(jiān)制丨連曉東

如何馴服AI大模型“能耗巨獸”

免責聲明:本文來自網(wǎng)絡收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,版權歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1080842.html
溫馨提示:投資有風險,,入市須謹慎。本資訊不作為投資理財建議,。

(0)
中國電子報的頭像中國電子報
上一篇 2023年11月28日 下午12:56
下一篇 2023年11月28日
198搶自鏈數(shù)字人

相關推薦