芯片行業(yè)正在朝著特定領(lǐng)域的計(jì)算發(fā)展,而人工智能(AI)則朝著相反的方向發(fā)展,這種差距可能會(huì)迫使未來芯片和系統(tǒng)架構(gòu)發(fā)生重大變化?
這種分裂的背后是設(shè)計(jì)硬件和軟件所需的時(shí)間?自 ChatGPT 在全球推出以來的 18 個(gè)月里,大量軟件初創(chuàng)公司紛紛探索新架構(gòu)和技術(shù)?考慮到映射到它們身上的任務(wù)變化速度之快,這種趨勢(shì)可能會(huì)持續(xù)下去?但生產(chǎn)一塊定制芯片通常需要超過 18 個(gè)月的時(shí)間?
在標(biāo)準(zhǔn)的世界中,軟件不會(huì)隨著時(shí)間的推移而發(fā)生太大變化,定制硬件以滿足應(yīng)用程序或工作負(fù)載的確切需求是值得的,僅此而已?這是RISC-V背后的主要驅(qū)動(dòng)因素之一,其中處理器ISA可以專門為給定任務(wù)設(shè)計(jì)?但是,隨著 AI 的多種變化,硬件在投入批量生產(chǎn)時(shí)可能已經(jīng)過時(shí)了?因此,除非規(guī)范不斷更新,否則專門針對(duì)應(yīng)用程序優(yōu)化的硬件不太可能足夠快地進(jìn)入市場以供使用?
因此,特定領(lǐng)域 AI 芯片首次運(yùn)行失敗的風(fēng)險(xiǎn)會(huì)增加?在修復(fù)該問題的同時(shí),生成式 AI 將繼續(xù)發(fā)展?
但這并不意味著定制硅片的末日?數(shù)據(jù)中心正在部署越來越多的處理架構(gòu),其中每一種架構(gòu)在特定任務(wù)上都比單個(gè)通用 CPU 更勝一籌?Quadric 首席營銷官 Steve Roddy 表示:“隨著數(shù)據(jù)中心 AI 工作負(fù)載的激增,隨著數(shù)據(jù)中心芯片和系統(tǒng)被迫適應(yīng)快速發(fā)展的形勢(shì),即使是普通計(jì)算能力的最后一道堡壘也已崩潰 ?”
但它確實(shí)指出了超高速?低功耗硅片與更多通用芯片或小芯片之間平衡的架構(gòu)?
“在人工智能領(lǐng)域,人們強(qiáng)烈要求將事物變得盡可能通用和可編程,因?yàn)闆]人知道下一個(gè) LLM 事物何時(shí)會(huì)出現(xiàn),并徹底改變他們做事的方式,”Blue Cheetah 首席執(zhí)行官 Elad Alon 說道?“你越是陷入困境,就越有可能錯(cuò)過潮流?與此同時(shí),很明顯,幾乎不可能滿足使用完全通用系統(tǒng)所需的計(jì)算能力,因此也幾乎不可能滿足功率和能源要求?人們強(qiáng)烈要求定制硬件,使其在當(dāng)今已知的特定事物上更加高效?”
挑戰(zhàn)在于如何高效地將軟件映射到這種異構(gòu)處理器陣列上,而目前業(yè)界尚未完全掌握這一技術(shù)?共存的處理器架構(gòu)越多,映射問題就越困難?“現(xiàn)代芯片中有一個(gè) GPU?一個(gè)神經(jīng)處理單元,還有核心處理,”Arteris 解決方案和業(yè)務(wù)開發(fā)副總裁 Frank Schirrmeister 在接受采訪時(shí)表示(他目前擔(dān)任 Synopsys 戰(zhàn)略項(xiàng)目和系統(tǒng)解決方案執(zhí)行董事)?“你至少有三個(gè)計(jì)算選項(xiàng),你必須決定將東西放在何處,并設(shè)置適當(dāng)?shù)某橄髮?我們過去稱之為軟件協(xié)同設(shè)計(jì)?當(dāng)你將算法或算法的一部分移植到 NPU 或 GPU 中時(shí),你會(huì)重新調(diào)整軟件,將更多的軟件執(zhí)行轉(zhuǎn)移到更高效的實(shí)現(xiàn)中?計(jì)算中仍有一個(gè)通用組件支持不同的元素?”
追逐領(lǐng)先者
AI 的出現(xiàn)得益于 GPU 的處理能力,圖形處理所需的功能與 AI 核心部分所需的功能非常接近?此外,創(chuàng)建了軟件工具鏈,使非圖形功能能夠映射到架構(gòu)上,這使得 NVIDIA GPU 成為最容易定位的處理器?
“當(dāng)有人成為市場領(lǐng)導(dǎo)者時(shí),他們可能是市場上唯一的競爭者,每個(gè)人都會(huì)試圖對(duì)其做出反應(yīng),”Keysight 新機(jī)遇業(yè)務(wù)經(jīng)理 Chris Mueth 表示?“但這并不意味著它是最優(yōu)架構(gòu)?我們可能暫時(shí)還不知道這一點(diǎn)?GPU 適用于某些應(yīng)用,例如執(zhí)行重復(fù)的數(shù)學(xué)運(yùn)算,在這方面很難被超越?如果你優(yōu)化軟件以與 GPU 配合使用,那么速度會(huì)非常快?”
成為通用加速器領(lǐng)導(dǎo)者可能會(huì)帶來阻力?西門子 EDA高級(jí)綜合項(xiàng)目總監(jiān) Russell Klein 說:“如果你要構(gòu)建通用加速器,你就需要考慮面向未來的問題?當(dāng) NVIDIA 坐下來構(gòu)建 TPU 時(shí),他們必須確保 TPU 能夠滿足盡可能廣泛的市場,這意味著任何構(gòu)想新神經(jīng)網(wǎng)絡(luò)的人都需要能夠?qū)⑵浞湃脒@個(gè)加速器中并運(yùn)行它?如果你要為某個(gè)應(yīng)用程序構(gòu)建某個(gè)東西,則幾乎不需要考慮面向未來的問題?我可能希望構(gòu)建一點(diǎn)靈活性,這樣我才有能力解決問題?但如果只是將其固定為一種能夠非常好地執(zhí)行一項(xiàng)工作的特定實(shí)現(xiàn),那么再過 18 個(gè)月就會(huì)有人想出一種全新的算法?好消息是我將領(lǐng)先于其他所有人,使用我的定制實(shí)現(xiàn),直到他們能夠趕上他們自己的定制實(shí)現(xiàn)?我們利用現(xiàn)成的硬件能做的事情很有限?”
但特異性也可以分層構(gòu)建?“IP 交付的一部分是硬件抽象層,它以標(biāo)準(zhǔn)化方式向軟件公開,”Schirrmeister 說?“如果沒有中間件,圖形核心就毫無用處?應(yīng)用程序特異性在抽象中向上移動(dòng)?如果你看看 CUDA,NVIDIA 核心本身的計(jì)算能力相當(dāng)通用?CUDA 是抽象層,然后在其上具有用于生物學(xué)的各種事物的庫?這很棒,因?yàn)閼?yīng)用程序特異性上升到更高的水平?”
這些抽象層在過去非常重要?Expedera 首席科學(xué)家兼聯(lián)合創(chuàng)始人 Sharad Chole 表示:“Arm 在應(yīng)用處理器之上整合了軟件生態(tài)系統(tǒng)?此后,異構(gòu)計(jì)算使每個(gè)人都可以在該軟件堆棧上構(gòu)建自己的附加組件?例如,高通的堆棧完全獨(dú)立于蘋果的堆棧?如果你將其延伸,就會(huì)有一個(gè)接口可用于獲得更好的性能或更好的功率分布?然后就有了協(xié)處理器的空間?這些協(xié)處理器將允許你進(jìn)行更多的差異化,而不僅僅是使用異構(gòu)計(jì)算進(jìn)行構(gòu)建,因?yàn)槟憧梢蕴砑踊騽h除它,或者你可以構(gòu)建一個(gè)更新的協(xié)處理器,而無需啟動(dòng)新的應(yīng)用程序流程,而這要昂貴得多?”
經(jīng)濟(jì)因素是一個(gè)重要因素?“接受 C++ 或其他高級(jí)語言的完全可編程設(shè)備以及功能特定的 GPU?GPNPU 和 DSP 的普及減少了新設(shè)計(jì)中對(duì)專用?固定功能且財(cái)務(wù)風(fēng)險(xiǎn)較高的硬件加速模塊的需求,”Quadric 的 Roddy 說道?
這既是技術(shù)問題,也是商業(yè)問題?Blue Cheetah 的 Alon 表示:“有人可能會(huì)說,我要做這個(gè)非常具體的目標(biāo)應(yīng)用,在這種情況下,我知道我將在 AI 或其他堆棧中做以下幾件事,然后你只需讓它們發(fā)揮作用?”“如果這個(gè)市場足夠大,那么對(duì)一家公司來說,這可能是一個(gè)有趣的選擇?但對(duì)于 AI 加速器或 AI 芯片初創(chuàng)公司來說,這是一個(gè)更棘手的賭注?如果沒有足夠的市場來證明整個(gè)投資的合理性,那么你必須預(yù)測(cè)尚不存在的市場所需的能力?這實(shí)際上是你正在采取什么樣的商業(yè)模式和賭注的混合體,因此可以采取什么樣的技術(shù)策略來盡可能地優(yōu)化它?”
專用硬件的情況
硬件實(shí)現(xiàn)需要選擇?Expedera 的 Chole 說:“如果我們可以標(biāo)準(zhǔn)化神經(jīng)網(wǎng)絡(luò)并說這就是我們要做的全部,那么您仍然必須考慮參數(shù)的數(shù)量?必要的操作數(shù)量以及所需的延遲?但情況從來都不是這樣的,尤其是對(duì)于 AI 而言?從一開始,我們就從 224 x 224 的郵票圖像開始,然后轉(zhuǎn)向高清,現(xiàn)在我們要轉(zhuǎn)向 4k?LLM 也是一樣?我們從 300 兆位模型(例如 Bert)開始,現(xiàn)在我們要朝著數(shù)十億?數(shù)十億甚至數(shù)萬億的參數(shù)邁進(jìn)?最初我們只從語言翻譯模型(例如令牌預(yù)測(cè)模型)開始?現(xiàn)在我們有了多模式模型,可以同時(shí)支持語言?視覺和音頻?工作量在不斷發(fā)展,這就是正在發(fā)生的追逐游戲?
現(xiàn)有架構(gòu)有許多方面值得質(zhì)疑?Mythic 首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Dave Fick 表示:“設(shè)計(jì)一個(gè)好的系統(tǒng)的關(guān)鍵部分是找到系統(tǒng)性能的顯著瓶頸并找到加速它們的方法?”“人工智能是一項(xiàng)令人興奮且影響深遠(yuǎn)的技術(shù)?然而,它需要每秒數(shù)萬億次操作的性能水平和標(biāo)準(zhǔn)緩存和 DRAM 架構(gòu)完全無法支持的內(nèi)存帶寬?這種實(shí)用性和挑戰(zhàn)性的結(jié)合使人工智能成為專用硬件單元的首選?”
通用設(shè)備數(shù)量不足以滿足需求,這可能是迫使行業(yè)開始采用更高效硬件解決方案的因素?“生成式人工智能領(lǐng)域的進(jìn)展非常快,”Chole 說?“目前沒有任何東西可以在成本和功率方面滿足硬件的要求?什么都沒有?甚至 GPU 的出貨量也不夠?有訂單,但出貨量不夠?這是每個(gè)人都看到的問題?沒有足夠的計(jì)算能力來真正支持生成式人工智能的工作負(fù)載?”
小芯片可能有助于緩解這個(gè)問題?“即將到來的小芯片海嘯將加速數(shù)據(jù)中心的這種轉(zhuǎn)變,”Roddy 說?“隨著小芯片封裝取代單片集成電路,混合和匹配完全可編程 CPU?GPU?GPNPU(通用可編程 NPU)和其他處理引擎以完成特定任務(wù)的能力將首先影響數(shù)據(jù)中心,然后隨著小芯片封裝成本隨著產(chǎn)量的增加而不可避免地降低,慢慢輻射到更大批量?更成本敏感的市場?”
多個(gè)市場,多個(gè)權(quán)衡
雖然大多數(shù)注意力都集中在訓(xùn)練新模型的大型數(shù)據(jù)中心上,但最終的收益將歸于使用這些模型進(jìn)行推理的設(shè)備?這些設(shè)備無法承擔(dān)用于訓(xùn)練的巨額電力預(yù)算?“用于訓(xùn)練人工智能的硬件有點(diǎn)標(biāo)準(zhǔn)化,”Ansys 產(chǎn)品營銷總監(jiān)馬克·斯溫寧 (Marc Swinnen) 說?“你購買 NVIDIA 芯片,這就是你訓(xùn)練人工智能的方式?但是一旦你建立了模型,你如何在最終應(yīng)用程序中(也許是在邊緣)執(zhí)行該模型?這通常是為該人工智能算法的特定實(shí)現(xiàn)量身定制的芯片?獲得高速?低功耗人工智能模型的唯一方法是為其構(gòu)建定制芯片?人工智能將成為執(zhí)行這些模型的定制硬件的巨大驅(qū)動(dòng)力?”
他們要做一系列類似的決定?“并不是每個(gè) AI 加速器都是一樣的,”Mythic 的 Fick 說?“關(guān)于如何解決 AI 帶來的內(nèi)存和性能挑戰(zhàn),有很多很棒的想法?特別是,有新的數(shù)據(jù)類型可以一直到 4 位浮點(diǎn)甚至 1 位精度?可以使用模擬計(jì)算來獲得極高的內(nèi)存帶寬,從而提高性能和能效?其他人正在考慮將神經(jīng)網(wǎng)絡(luò)精簡到最關(guān)鍵的位,以節(jié)省內(nèi)存和計(jì)算?所有這些技術(shù)都將產(chǎn)生在某些領(lǐng)域強(qiáng)大而在其他領(lǐng)域薄弱的硬件?這意味著更大的硬件和軟件協(xié)同優(yōu)化,以及需要建立一個(gè)具有各種 AI 處理選項(xiàng)的生態(tài)系統(tǒng)?”
這正是 AI 和 RISC-V 的利益交匯之處?Sigasi 首席執(zhí)行官 Dieter Therssen 表示:“在 LLM 等軟件任務(wù)方面,它們將占據(jù)主導(dǎo)地位,足以推動(dòng)新的硬件架構(gòu),但不會(huì)完全停止差異化,至少在短期內(nèi)不會(huì)?”“即使 RISC-V 的定制也是基于進(jìn)行一些 CNN 或 LLM 處理的需求?這里的一個(gè)關(guān)鍵因素是如何部署 AI?目前,有太多方法可以做到這一點(diǎn),因此成像融合仍然遙不可及?”
結(jié)論
AI 是新興事物,發(fā)展速度如此之快,以至于沒有人能給出明確的答案?對(duì)于現(xiàn)有的應(yīng)用程序來說,最佳架構(gòu)是什么?未來的應(yīng)用程序是否看起來足夠相似,以至于現(xiàn)有架構(gòu)只需擴(kuò)展?這似乎是一個(gè)非常幼稚的預(yù)測(cè),但今天它可能是許多公司的最佳選擇?
GPU 和在其之上構(gòu)建的軟件抽象使 AI 的快速崛起成為可能?它為我們看到的擴(kuò)展提供了足夠的框架,但這并不意味著它是最高效的平臺(tái)?模型開發(fā)在一定程度上被迫朝著現(xiàn)有硬件支持的方向發(fā)展,但隨著更多架構(gòu)的出現(xiàn),AI 和模型開發(fā)可能會(huì)根據(jù)可用的硬件資源及其對(duì)電力的需求而出現(xiàn)分歧?電力很可能成為主導(dǎo)兩者的因素,因?yàn)槟壳暗念A(yù)測(cè)是,AI 將很快消耗掉全球發(fā)電能力的很大一部分?這種情況不能繼續(xù)下去?
文章來源:半導(dǎo)體行業(yè)觀察
