核心提示:如果要為最近這波芯片潮找一個先驅,AI芯片當之無愧。因為看到了GPU從人工智能上找到的巨大機遇,廣大深度學習關注者便開始探
如果要為最近這波芯片潮找一個先驅,AI芯片當之無愧。
因為看到了GPU從人工智能上找到的巨大機遇,廣大深度學習關注者便開始探索DSA在人工智能應用上的落地嘗試。但在歷經(jīng)過去多年的試水,不少從業(yè)人員會發(fā)現(xiàn),AI在落地方面面臨著比他們預想中更難、更多的挑戰(zhàn)。
在本文中,我們與一個從2016年就開始做AI芯片的行業(yè)老兵李豐(化名)進行了一番交流,在此過程中,他從一個行業(yè)深度參與者,分享了他對行業(yè)現(xiàn)狀和未來的看法。
AI芯片市場現(xiàn)狀
華爾街日報在今年三月份的報道中指出,根據(jù)市場研究公司 PitchBook Data Inc 的數(shù)據(jù),人工智能芯片初創(chuàng)公司在2021年通過 170 筆交易獲得了約 99 億美元的風險投資,這個數(shù)字是AI 芯片初創(chuàng)公司在2020年獲得的總資金的三倍多。報道表示,這些融資的公司所從事的領域涵蓋了AI 芯片,旨在優(yōu)化人工智能和機器學習模型的智能傳感器、設備以及算法。
知名市場分析機構Gartner也表示,全球有 50 多家公司正在專門為 AI 制造芯片。而預計今年用于執(zhí)行人工智能任務的芯片銷售額將達到 443 億美元,到 2025 年將達到 768 億美元。IDC計算半導體研究副總裁 Shane Rau則直言,目前,大多數(shù) AI 芯片初創(chuàng)公司都依靠投資者的資本而不是銷售額來運營,因此不受更廣泛的市場力量的影響。
綜合上述分析可以看到,如文章開頭所說,大多數(shù)AI芯片公司可能還處于產(chǎn)業(yè)發(fā)展的混沌期。觀察市場上的AI應用,可能大家能看到被廣泛應用的場景就是智慧安防。但在很多其他領域,大家也許希望能夠看到AI能夠快速下沉放量,然而卻感覺事與愿違。
在問到AI芯片熱潮緣由的時候,李豐以一個例子來說明其背后產(chǎn)生的驅動力之一。他指出,在深度學習早期的端側加速方案中,有很多SIMD DSP的案例,比如來自多家公司集成CEVA XM4/XM6的多款芯片,其中XM4/XM6正是典型的SIMD DSP。但是DSP的特點決定了它可以做萬金油,但用在特定領域時又發(fā)現(xiàn)不是最合適,所以很快市場上就出現(xiàn)了專用的AI加速芯片。
放大來看,這也是整個AI芯片產(chǎn)業(yè)蓬勃發(fā)展的一個典型范例。
然而,李豐表示,在關注度大增的AI市場,過去幾年還出現(xiàn)了一些亂象,其中典型的現(xiàn)象比如“實際算力與紙面算力不符”,而背后的原因正是上面談到的運算單元實際利用率的問題。在他看來,這種現(xiàn)象在市場上比比皆是。
“AI芯片市場的現(xiàn)狀更多來自落地問題,特別是在端側落地,端側應用比較碎片化,需要根據(jù)場景定制AI模型,而訓練模型需要大數(shù)據(jù),此時大數(shù)據(jù)的獲取就成了問題”,李豐接著說。他同時指出,如果說在山寨手機時代,芯片原廠還可以去做“turnkey”方案,那么到了AI時代,芯片原廠有心無力,關鍵是芯片原廠也沒有辦法獲取數(shù)據(jù),同時開發(fā)者社區(qū)和方案公司都面臨這個問題,導致了整個AI應用開發(fā)的活躍程度其實并不算高。
“你看到的AI應用更多是圍繞圖像處理,也就是用AI去補充ISP功能,不否認AI對圖像處理有幫助,但并不是通常意義的機器視覺應用。”李豐強調。
AI芯片難在哪里
也許不少人和李豐一樣,在入局AI芯片的時候低估了其難度。作為一個鉆研這個行業(yè)多年的老兵,李豐也總結了幾點他在過去幾年對AI芯片的一些看法以及他認為的一些挑戰(zhàn)。
李豐首先指出,AI屬于運算密集型應用,并行計算量很大,因此數(shù)據(jù)在運算單元和存儲單元之間的傳輸非常頻繁,數(shù)據(jù)的流動是產(chǎn)生功耗的主要原因。“因此AI芯片的一個重要指標是能耗效率(energy efficiency), SIMD DSP之所以被替代的一個重要原因是這個指標不夠好(另一個原因在于SIMD的并行度依然不夠高)。”李豐接著說。
他告訴記者,這個指標的影響因素之一是訪存(memory access),因此這些年產(chǎn)學界的大部分研究成果就是圍繞這件事,并總結出AI芯片的三條設計原則:1,存儲層次化(memory hierarchy); 2,數(shù)據(jù)復用(data reuse); 3,片上互連(interconnect)。這三條原則必須同時使用才能達到降低訪存的效果,其中選擇不同的數(shù)據(jù)復用算法又會有不同的微架構。
“總體而言,AI芯片的硬件架構比較單純,像谷歌的TPU只有五條指令,其中兩條指令是訪存,另外三條運算指令。可見,AI芯片硬件設計的重點在于如何在提高計算并行度的同時最大程度降低訪存,從而達到提高能耗效率的目標。”李豐告訴記者。
此外,AI芯片的難點更多在于軟件部分,即配套的工具鏈,這其中兩個工具很重要:一個是編譯器,另一個是量化工具。
首先看編譯器方面。還是以英偉達為例。讀者就算沒用過也應該都知道,英偉達GPU之所以能夠在AI市場所向披靡,除了得益于其領先的性能外,芯片巨頭花重金打造的CUDA生態(tài)也是不可或缺的重要一環(huán)。
按照東吳證券的報告,GPU 的微架構天生適合矩陣類并行計算,其能力不僅限于顯卡領域,于是從 21 世紀早期就有專業(yè)的計算人員想要使用 GPU 做一些 AI 領域相關的并行計算。但在 CUDA 問世之前,想要調用 GPU 的計算能力必須編寫大量的底層語言代碼,這是主要使用高級語言為主的程序員不折不扣的噩夢。有見及此,英偉達公司的 David Kirk主導推出了 CUDA (Compute Unified Device Architecture,統(tǒng)一計算架構)系統(tǒng),這是是一個基于英偉達 GPU 平臺上面定制的特殊計算體系/算法,一般只能在英偉達的 GPU 系統(tǒng)上使用。
英偉達這個在一開始不被看好的項目,現(xiàn)在成為了公司最堅實的堡壘。過去幾年的一些AI芯片和GPGPU創(chuàng)業(yè)者,在發(fā)布產(chǎn)品的時候,也大多談到了與CUDA的兼容,這足以證明一個好的編譯器的價值。而根據(jù)英偉達在GTC 2022上公布的數(shù)據(jù),CUDA 平臺自 2008 推出以來已經(jīng)下載了 3300 萬次以上,僅在 2021 年就有 800 萬次下載,三年內(nèi)增長了 3 倍。
李豐也指出,編譯器雖然不是新技術,但基于并行計算的編譯器還并不算成熟,運算單元利用率很大程度上取決于編譯器,或者說即使硬件層面實現(xiàn)了足夠高的并行度,但由于編譯器的原因導致實際能調用的運算單元達不到要求,從而體現(xiàn)在算力不夠。
“另外,量化技術五花八門,多種流派并存,量化手段的多樣性雖然給用戶帶來了多種選擇,但似乎沒有哪個流派最終勝出,這就給跨平臺的開發(fā)和移植帶來一些不便。”李豐告訴記者。
“總之,這兩個工具是AI芯片的難點,能做好并不容易!”李豐強調。
AI芯片何去何從
雖然困難重重,但人工智能是大勢所趨,AI芯片也是必然需求。對于相關從業(yè)者而言,需要考量的就是,未來的AI芯片會走向何方。
針對這個問題,李豐回應道,這很大程度依賴于AI算法的演進。他指出,當前CNN和transformer兩種算法架構并存,單從硬件上看這是兩種運算類型,前者是卷積運算,后者是矩陣乘法,對硬件設計要求不同。
“處理卷積運算時,專用硬件有發(fā)揮空間,或者說有創(chuàng)新機會;但處理矩陣乘法運算時,是否一定要用專用硬件都是未知數(shù),因為通用處理器應對此類運算已經(jīng)足夠成熟。”李豐表示。
他同時重申,在數(shù)據(jù)中心(IDC)市場,GPU架構已經(jīng)是事實標準,其他架構難以撼動,特別是專用硬件在云計算領域基本上沒有機會。“在端側市場,如果transformer最終勝出,那么不排除出現(xiàn)直接將算法硬件化的芯片,這與我們近年來提出了DSA(domain specific accelerator)概念也是相符的。”李豐接著說。
同時,李豐還談到了近年來火熱的存內(nèi)計算概念在AI市場的機遇。
他指出,這些年比較火的存內(nèi)計算和神經(jīng)形態(tài)計算(neuromophic processing)都可以劃歸在模擬計算領域(analog computing)。其中,存內(nèi)計算首先在AI領域出現(xiàn)源自三個原因:第一,訪存問題,也即存儲墻問題;第二,量化精度進入int8時代;第三,AI本質是近似計算。三者是存內(nèi)計算在AI領域出現(xiàn)的條件。
“但是這里有一個問題就是,與模擬計算整體配套的軟件開發(fā)環(huán)境并不成熟,換句話說雖然硬件上是模擬計算,或者非馮諾依曼架構,但軟件還被迫與馮氏架構兼容,否則開發(fā)者無法使用,其實這是一個很嚴重的問題。”李豐告訴記者。“說的通俗一點,像存內(nèi)計算或者神經(jīng)形態(tài)計算這種模擬計算應該有屬于自己的軟件開發(fā)流程和方法學,但現(xiàn)在還沒有,何時能有,并不清晰。”李豐解釋說。
在李豐看來,在現(xiàn)在這個過渡時期,模擬計算或者存內(nèi)計算優(yōu)勢比較有限,證據(jù)之一就是這類芯片中存在大量的ADC/DAC用于數(shù)模轉換。但這些ADC/DAC對芯片整體指標的影響是顯而易見的。
“這好比給蘇炳添穿上緊身皮褲,那么從此再無9秒83。”李豐表示。
因為看到了GPU從人工智能上找到的巨大機遇,廣大深度學習關注者便開始探索DSA在人工智能應用上的落地嘗試。但在歷經(jīng)過去多年的試水,不少從業(yè)人員會發(fā)現(xiàn),AI在落地方面面臨著比他們預想中更難、更多的挑戰(zhàn)。
在本文中,我們與一個從2016年就開始做AI芯片的行業(yè)老兵李豐(化名)進行了一番交流,在此過程中,他從一個行業(yè)深度參與者,分享了他對行業(yè)現(xiàn)狀和未來的看法。
AI芯片市場現(xiàn)狀
華爾街日報在今年三月份的報道中指出,根據(jù)市場研究公司 PitchBook Data Inc 的數(shù)據(jù),人工智能芯片初創(chuàng)公司在2021年通過 170 筆交易獲得了約 99 億美元的風險投資,這個數(shù)字是AI 芯片初創(chuàng)公司在2020年獲得的總資金的三倍多。報道表示,這些融資的公司所從事的領域涵蓋了AI 芯片,旨在優(yōu)化人工智能和機器學習模型的智能傳感器、設備以及算法。
知名市場分析機構Gartner也表示,全球有 50 多家公司正在專門為 AI 制造芯片。而預計今年用于執(zhí)行人工智能任務的芯片銷售額將達到 443 億美元,到 2025 年將達到 768 億美元。IDC計算半導體研究副總裁 Shane Rau則直言,目前,大多數(shù) AI 芯片初創(chuàng)公司都依靠投資者的資本而不是銷售額來運營,因此不受更廣泛的市場力量的影響。
綜合上述分析可以看到,如文章開頭所說,大多數(shù)AI芯片公司可能還處于產(chǎn)業(yè)發(fā)展的混沌期。觀察市場上的AI應用,可能大家能看到被廣泛應用的場景就是智慧安防。但在很多其他領域,大家也許希望能夠看到AI能夠快速下沉放量,然而卻感覺事與愿違。
在問到AI芯片熱潮緣由的時候,李豐以一個例子來說明其背后產(chǎn)生的驅動力之一。他指出,在深度學習早期的端側加速方案中,有很多SIMD DSP的案例,比如來自多家公司集成CEVA XM4/XM6的多款芯片,其中XM4/XM6正是典型的SIMD DSP。但是DSP的特點決定了它可以做萬金油,但用在特定領域時又發(fā)現(xiàn)不是最合適,所以很快市場上就出現(xiàn)了專用的AI加速芯片。
放大來看,這也是整個AI芯片產(chǎn)業(yè)蓬勃發(fā)展的一個典型范例。
然而,李豐表示,在關注度大增的AI市場,過去幾年還出現(xiàn)了一些亂象,其中典型的現(xiàn)象比如“實際算力與紙面算力不符”,而背后的原因正是上面談到的運算單元實際利用率的問題。在他看來,這種現(xiàn)象在市場上比比皆是。
“AI芯片市場的現(xiàn)狀更多來自落地問題,特別是在端側落地,端側應用比較碎片化,需要根據(jù)場景定制AI模型,而訓練模型需要大數(shù)據(jù),此時大數(shù)據(jù)的獲取就成了問題”,李豐接著說。他同時指出,如果說在山寨手機時代,芯片原廠還可以去做“turnkey”方案,那么到了AI時代,芯片原廠有心無力,關鍵是芯片原廠也沒有辦法獲取數(shù)據(jù),同時開發(fā)者社區(qū)和方案公司都面臨這個問題,導致了整個AI應用開發(fā)的活躍程度其實并不算高。
“你看到的AI應用更多是圍繞圖像處理,也就是用AI去補充ISP功能,不否認AI對圖像處理有幫助,但并不是通常意義的機器視覺應用。”李豐強調。
AI芯片難在哪里
也許不少人和李豐一樣,在入局AI芯片的時候低估了其難度。作為一個鉆研這個行業(yè)多年的老兵,李豐也總結了幾點他在過去幾年對AI芯片的一些看法以及他認為的一些挑戰(zhàn)。
李豐首先指出,AI屬于運算密集型應用,并行計算量很大,因此數(shù)據(jù)在運算單元和存儲單元之間的傳輸非常頻繁,數(shù)據(jù)的流動是產(chǎn)生功耗的主要原因。“因此AI芯片的一個重要指標是能耗效率(energy efficiency), SIMD DSP之所以被替代的一個重要原因是這個指標不夠好(另一個原因在于SIMD的并行度依然不夠高)。”李豐接著說。
他告訴記者,這個指標的影響因素之一是訪存(memory access),因此這些年產(chǎn)學界的大部分研究成果就是圍繞這件事,并總結出AI芯片的三條設計原則:1,存儲層次化(memory hierarchy); 2,數(shù)據(jù)復用(data reuse); 3,片上互連(interconnect)。這三條原則必須同時使用才能達到降低訪存的效果,其中選擇不同的數(shù)據(jù)復用算法又會有不同的微架構。
“總體而言,AI芯片的硬件架構比較單純,像谷歌的TPU只有五條指令,其中兩條指令是訪存,另外三條運算指令。可見,AI芯片硬件設計的重點在于如何在提高計算并行度的同時最大程度降低訪存,從而達到提高能耗效率的目標。”李豐告訴記者。
此外,AI芯片的難點更多在于軟件部分,即配套的工具鏈,這其中兩個工具很重要:一個是編譯器,另一個是量化工具。
首先看編譯器方面。還是以英偉達為例。讀者就算沒用過也應該都知道,英偉達GPU之所以能夠在AI市場所向披靡,除了得益于其領先的性能外,芯片巨頭花重金打造的CUDA生態(tài)也是不可或缺的重要一環(huán)。
按照東吳證券的報告,GPU 的微架構天生適合矩陣類并行計算,其能力不僅限于顯卡領域,于是從 21 世紀早期就有專業(yè)的計算人員想要使用 GPU 做一些 AI 領域相關的并行計算。但在 CUDA 問世之前,想要調用 GPU 的計算能力必須編寫大量的底層語言代碼,這是主要使用高級語言為主的程序員不折不扣的噩夢。有見及此,英偉達公司的 David Kirk主導推出了 CUDA (Compute Unified Device Architecture,統(tǒng)一計算架構)系統(tǒng),這是是一個基于英偉達 GPU 平臺上面定制的特殊計算體系/算法,一般只能在英偉達的 GPU 系統(tǒng)上使用。
英偉達這個在一開始不被看好的項目,現(xiàn)在成為了公司最堅實的堡壘。過去幾年的一些AI芯片和GPGPU創(chuàng)業(yè)者,在發(fā)布產(chǎn)品的時候,也大多談到了與CUDA的兼容,這足以證明一個好的編譯器的價值。而根據(jù)英偉達在GTC 2022上公布的數(shù)據(jù),CUDA 平臺自 2008 推出以來已經(jīng)下載了 3300 萬次以上,僅在 2021 年就有 800 萬次下載,三年內(nèi)增長了 3 倍。
李豐也指出,編譯器雖然不是新技術,但基于并行計算的編譯器還并不算成熟,運算單元利用率很大程度上取決于編譯器,或者說即使硬件層面實現(xiàn)了足夠高的并行度,但由于編譯器的原因導致實際能調用的運算單元達不到要求,從而體現(xiàn)在算力不夠。
“另外,量化技術五花八門,多種流派并存,量化手段的多樣性雖然給用戶帶來了多種選擇,但似乎沒有哪個流派最終勝出,這就給跨平臺的開發(fā)和移植帶來一些不便。”李豐告訴記者。
“總之,這兩個工具是AI芯片的難點,能做好并不容易!”李豐強調。
AI芯片何去何從
雖然困難重重,但人工智能是大勢所趨,AI芯片也是必然需求。對于相關從業(yè)者而言,需要考量的就是,未來的AI芯片會走向何方。
針對這個問題,李豐回應道,這很大程度依賴于AI算法的演進。他指出,當前CNN和transformer兩種算法架構并存,單從硬件上看這是兩種運算類型,前者是卷積運算,后者是矩陣乘法,對硬件設計要求不同。
“處理卷積運算時,專用硬件有發(fā)揮空間,或者說有創(chuàng)新機會;但處理矩陣乘法運算時,是否一定要用專用硬件都是未知數(shù),因為通用處理器應對此類運算已經(jīng)足夠成熟。”李豐表示。
他同時重申,在數(shù)據(jù)中心(IDC)市場,GPU架構已經(jīng)是事實標準,其他架構難以撼動,特別是專用硬件在云計算領域基本上沒有機會。“在端側市場,如果transformer最終勝出,那么不排除出現(xiàn)直接將算法硬件化的芯片,這與我們近年來提出了DSA(domain specific accelerator)概念也是相符的。”李豐接著說。
同時,李豐還談到了近年來火熱的存內(nèi)計算概念在AI市場的機遇。
他指出,這些年比較火的存內(nèi)計算和神經(jīng)形態(tài)計算(neuromophic processing)都可以劃歸在模擬計算領域(analog computing)。其中,存內(nèi)計算首先在AI領域出現(xiàn)源自三個原因:第一,訪存問題,也即存儲墻問題;第二,量化精度進入int8時代;第三,AI本質是近似計算。三者是存內(nèi)計算在AI領域出現(xiàn)的條件。
“但是這里有一個問題就是,與模擬計算整體配套的軟件開發(fā)環(huán)境并不成熟,換句話說雖然硬件上是模擬計算,或者非馮諾依曼架構,但軟件還被迫與馮氏架構兼容,否則開發(fā)者無法使用,其實這是一個很嚴重的問題。”李豐告訴記者。“說的通俗一點,像存內(nèi)計算或者神經(jīng)形態(tài)計算這種模擬計算應該有屬于自己的軟件開發(fā)流程和方法學,但現(xiàn)在還沒有,何時能有,并不清晰。”李豐解釋說。
在李豐看來,在現(xiàn)在這個過渡時期,模擬計算或者存內(nèi)計算優(yōu)勢比較有限,證據(jù)之一就是這類芯片中存在大量的ADC/DAC用于數(shù)模轉換。但這些ADC/DAC對芯片整體指標的影響是顯而易見的。
“這好比給蘇炳添穿上緊身皮褲,那么從此再無9秒83。”李豐表示。