由于應(yīng)用的多樣性以及每個(gè)應(yīng)用對(duì)功率和性能的高度特定的需求,設(shè)計(jì) AI/ML 推理芯片正在成為一項(xiàng)巨大的挑戰(zhàn)。
簡(jiǎn)而言之,一種尺寸并不適合所有人,而且并非所有應(yīng)用都能負(fù)擔(dān)得起定制設(shè)計(jì)。例如,在零售店跟蹤中,對(duì)于經(jīng)過某個(gè)過道的顧客來說,允許有 5% 或 10% 的誤差幅度是可以接受的,而在醫(yī)療診斷或汽車視覺中,準(zhǔn)確度需要顯著提高。但結(jié)果的準(zhǔn)確性也會(huì)以功耗和性能以及設(shè)計(jì)復(fù)雜性為代價(jià)。再加上永遠(yuǎn)在線/無停機(jī)時(shí)間、吞吐量、數(shù)據(jù)流和管理、延遲和可編程性。(半導(dǎo)體人才網(wǎng))
在人工智能中,準(zhǔn)確度是衡量答案正確的概率,定義為正確預(yù)測(cè)的數(shù)量除以預(yù)測(cè)的總數(shù)。例如,如果在 100 個(gè)樣本中,正確預(yù)測(cè)了 85 個(gè)樣本,則準(zhǔn)確率為 85%。
Palo Alto Networks 的高級(jí)數(shù)據(jù)科學(xué)家 Venkatesh Pappakrishnan 認(rèn)為,ML 算法幾乎不可能達(dá)到 100% 的預(yù)測(cè)準(zhǔn)確率。一般來說,準(zhǔn)確率在 80% 到 85% 的良好 ML 算法更符合實(shí)際。實(shí)現(xiàn)接近 95% 的準(zhǔn)確度需要付出巨大的努力、時(shí)間、更深入的領(lǐng)域知識(shí)以及額外的數(shù)據(jù)工程和收集。最有可能的是,可以發(fā)布一個(gè)達(dá)到 75% 到 85% 準(zhǔn)確率的模型,然后再進(jìn)行改進(jìn)。
另一個(gè)關(guān)鍵指標(biāo)是精度,它直接影響準(zhǔn)確性。在實(shí)現(xiàn)推理解決方案時(shí),開發(fā)人員使用 int(x) 格式來表示整數(shù)。對(duì)于邊緣推理,它通常是 int8 或更低。Int1 表示 1 位整數(shù),而 Int8 表示 8 位整數(shù)。位值越高,精度越高。一個(gè)簡(jiǎn)單的類比是照片中的像素?cái)?shù)。像素越多,分辨率越高。在推理中,int8 將產(chǎn)生比 int4 更高的準(zhǔn)確度。但它也需要更多的內(nèi)存和更長的處理時(shí)間。在一項(xiàng)測(cè)試中,NVIDIA 證明 int4 精度與 int8 相比具有 59% 的加速。
Arm 物聯(lián)網(wǎng)和嵌入式、汽車和基礎(chǔ)設(shè)施業(yè)務(wù)線的細(xì)分市場(chǎng)營銷總監(jiān) Parag Beeraka 表示:“有廣泛的準(zhǔn)確性和精度要求,這一切都取決于用例。” “例如,如果 AI/ML 用于實(shí)時(shí)語言翻譯,那么您確實(shí)需要具有更高的準(zhǔn)確度和精確度才能使其易于理解。但如果將 AI/ML 用于對(duì)象識(shí)別用例,則所需的精度越高,AI/ML 模型映射到低功耗 AI 芯片的過程就越復(fù)雜。您可以通過犧牲一些精度和準(zhǔn)確性來降低復(fù)雜性。這就是你看到很多使用 int8(8 位)格式的低功耗邊緣 AI 芯片的原因,但你會(huì)看到很多更新的 ML 技術(shù)也支持更低(1 位,
那么何時(shí)何地進(jìn)行這些權(quán)衡取決于應(yīng)用程序和用例?
“準(zhǔn)確性和精確度在很大程度上取決于系統(tǒng)級(jí)用例,”Cadence Tensilica AI DSP 產(chǎn)品營銷總監(jiān) Suhas Mitra 說。“不同的指標(biāo)用于確定某個(gè)應(yīng)用程序可以容忍的準(zhǔn)確度/精度。例如,在低功耗邊緣物聯(lián)網(wǎng)設(shè)備上運(yùn)行的圖像分類與需要更高準(zhǔn)確性的基于汽車自主的系統(tǒng)相比,可能能夠容忍更低的準(zhǔn)確性。所有這些不僅影響設(shè)計(jì)軟件的方式,還影響硬件。
“
GPU、FPGA 還是 ASIC?
在 AI/ML 芯片之上運(yùn)行的是軟件。各種 AI/ML 算法和實(shí)現(xiàn)隨著時(shí)間的推移而發(fā)展。過去,算法會(huì)在 CPU 上運(yùn)行。然而,越來越多的此類軟件被嵌入到芯片中。對(duì)于邊緣應(yīng)用程序,正在部署特定的軟件模塊。
“人工智能算法跨越多種功能,”西門子 EDA 的 HLS 平臺(tái)總監(jiān) Russ Klein 說。“有些相當(dāng)適中,可以在嵌入式處理器上舒適地運(yùn)行,而另一些則龐大而復(fù)雜,需要專門的專用硬件來滿足性能和效率要求。許多因素有助于確定人工智能算法的部署位置,但軟件、現(xiàn)成加速器或定制硬件的硬件/軟件權(quán)衡與大多數(shù)嵌入式系統(tǒng)的情況類似。”
軟件是迄今為止實(shí)現(xiàn)任何功能的最靈活和適應(yīng)性最強(qiáng)的方法,并且提供了最便宜的開發(fā)。“軟件是‘面向未來的’,” Klein說。“CPU 將運(yùn)行任何尚未發(fā)現(xiàn)的推理算法。基于 CPU 的系統(tǒng)通常可以在部署時(shí)進(jìn)行更新。然而,軟件可能是部署人工智能算法最慢、最節(jié)能的方式。”
CPU、GPU、FPGA 和 ASIC 目前用于推理芯片。雖然 CPU 因其靈活性而仍在某些 AI/ML 推理應(yīng)用中使用,但 GPU、FPGA 和 ASIC 因其更高的性能效率而成為深度神經(jīng)網(wǎng)絡(luò) (DNN) 和卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的首選,它們的吸引力在于在各種新應(yīng)用程序中不斷增長。
GPU 具有非常高效的并行處理和內(nèi)存管理。它們通常使用 C/C++ 高級(jí)語言,并且在高性能 DNN 和 CNN 應(yīng)用程序(如數(shù)據(jù)中心和自動(dòng)駕駛)中運(yùn)行良好。然而,對(duì)于邊緣推理應(yīng)用,例如可穿戴設(shè)備和安全攝像頭,GPU 可能過于耗電。
相比之下,F(xiàn)PGA 提供可編程 I/O 和邏輯塊。使用硬件描述語言 (HDL) 等工具映射 AI/ML 模型的有效方法對(duì)于推理應(yīng)用程序非常重要。高效的內(nèi)存管理也很重要。
Flex Logix 的 IP 銷售、營銷和解決方案架構(gòu)副總裁 Andy Jaros 表示:“低功耗、可編程性、準(zhǔn)確性和高吞吐量是推動(dòng)高效邊緣 AI 解決方案的四個(gè)相互沖突的力量。” “具有特定模型加速器的 ASIC 解決方案將始終是最節(jié)能的解決方案,但會(huì)失去可編程性。多年來,嵌入式處理器得到了增強(qiáng),以增加 AI 模型所需的乘法和累加 (MAC) 處理,但不具備滿足高精度要求的 MAC 密度。”
Jaros 說,研究人員和系統(tǒng)設(shè)計(jì)人員現(xiàn)在正在探索將 eFPGA 用于 AI 處理解決方案的多種途徑。“正在研究的方法包括特定于模型的處理器定制指令,其中指令集可以逐個(gè)模型更改。反過來,這種指令集的多功能性可以將 eFPGA DSP MAC 用于更傳統(tǒng)的基于 FPGA 的加速器,利用在 FPGA 邏輯結(jié)構(gòu)中非常有效地運(yùn)行的二進(jìn)制或三進(jìn)制模型,同時(shí)保持合理的精度。利用 eFPGA 的可重編程性和靈活性使 AIoT 設(shè)備成為可能,最終客戶可以為其應(yīng)用選擇正確的可編程性、功率、性能和精度組合,”他說。“將 eFPGA 用于 AI 還為最終用戶提供了更高級(jí)別的安全性,因?yàn)樗鼈兊膶S兄噶罨蚣铀倨骺梢栽谥圃旌笤诎踩沫h(huán)境中進(jìn)行編程。沒有人需要看到他們的秘密電路。采用 PUF 技術(shù)的比特流加密,例如我們最近與 Intrinsic ID 的合作,為比特流保護(hù)增加了更高級(jí)別的安全性。”
通過它們的結(jié)構(gòu)——與 GPU 和 FPGA 不同——ASIC 是為特定應(yīng)用定制的。設(shè)計(jì)可能非常昂貴,具體取決于復(fù)雜性和工藝節(jié)點(diǎn),例如,在設(shè)計(jì)流程后期進(jìn)行更改以適應(yīng)更新的協(xié)議或工程變更單可能會(huì)將這些成本推高。另一方面,由于特定應(yīng)用程序的專用功能,該架構(gòu)更加節(jié)能。
“如果低功耗是關(guān)鍵標(biāo)準(zhǔn)之一,那么 ASIC 是構(gòu)建低功耗 AI 芯片的正確解決方案,”Arm 的 Parag 說。“如果終端設(shè)備是小批量產(chǎn)品,eFPGA 可能是一個(gè)不錯(cuò)的選擇。但是,這可能會(huì)轉(zhuǎn)化為更高的成本。某些細(xì)分市場(chǎng)可以滿足 eFPGA 的需求,但大部分是 ASIC。”
根據(jù)安全和新興技術(shù)中心發(fā)布的一份報(bào)告,與 CPU 技術(shù)相比,ASIC 在效率和速度方面的性能高達(dá) 1000 倍,而 FPGA 的性能高達(dá) 100 倍。GPU 提供高達(dá) 10 倍的效率和高達(dá) 100 倍的速度。這些芯片中的大多數(shù)都可以實(shí)現(xiàn) 90% 到幾乎 100% 的推理精度。
“GPU、張量處理單元 (TPU) 或神經(jīng)處理單元 (NPU) 等專用加速器可提供比通用處理器更高的性能,同時(shí)保持傳統(tǒng)處理器的大部分可編程性,并展示出比 CPU 更高的推理效率。然而,隨著專業(yè)化程度的提高,下一代人工智能算法可能會(huì)面臨無法正確操作組合的風(fēng)險(xiǎn)。但是,實(shí)施為特定 AI 算法量身定制的專用 eFPGA/FPGA 或 ASIC 加速器可以滿足最苛刻的要求。
關(guān)鍵的實(shí)時(shí)應(yīng)用程序,例如自動(dòng)駕駛,或那些必須從能量收集中汲取能量的應(yīng)用程序,可以從定制開發(fā)的加速器中受益。但定制加速器的開發(fā)成本也是最高的,如果它們沒有內(nèi)置一定數(shù)量的可編程邏輯,它們可能很快就會(huì)過時(shí)。
“FPGA 或 eFPGA 保留了一定數(shù)量的可重新編程能力,但代價(jià)是比同等 ASIC 實(shí)現(xiàn)更高的功率和更低的性能,”Siemens EDA 的 Klein 說。
與大多數(shù)設(shè)計(jì)一樣,可重用性降低了設(shè)計(jì)成本。在某些情況下,高達(dá) 80% 的芯片可能會(huì)在下一個(gè)版本中重復(fù)使用。對(duì)于推理設(shè)備,能夠重復(fù)使用 IP 或芯片的其他部分也可以顯著縮短上市時(shí)間,這很重要,因?yàn)樗惴◣缀踉诓粩喔隆km然通用芯片(例如 CPU)可用于通過不同的軟件或算法進(jìn)行推理,但代價(jià)是性能較低。另一方面,除非實(shí)現(xiàn)非常相似的應(yīng)用程序,否則 ASIC 的可重用性受到更多限制。中間是 FPGA 或 eFPGA,它具有最標(biāo)準(zhǔn)的邏輯,允許以最小的努力重新編程軟件。
Arm 的 Parag 說:“使部分設(shè)計(jì)可重用于 AI 有很多考慮因素。” “其中包括可擴(kuò)展的硬件 AI/ML 加速器 IP(具有良好的仿真和建模工具)、支持可擴(kuò)展硬件加速器 IP 上不同框架的軟件生態(tài)系統(tǒng),以及涵蓋最廣泛用例的多框架支持模型。”
其他人同意。“主要考慮的是如何快速映射新的 AI 模型拓?fù)洌盋adence 的 Mitra 說。“有時(shí)我們會(huì)陷入從硬件中榨取每一盎司的壓力,但人工智能網(wǎng)絡(luò)變化如此之快,以至于優(yōu)化每一行邏輯可能會(huì)產(chǎn)生反效果。對(duì)于可重用的設(shè)計(jì),它應(yīng)該能夠處理一個(gè)大而廣泛的數(shù)學(xué)繁重的函數(shù),包括各種格式的卷積、激活函數(shù)等。”
“
縮放因子
今天的 AI/ML 推理加速器芯片設(shè)計(jì)面臨著將高性能處理、內(nèi)存和多個(gè) I/O 封裝在一個(gè)小封裝內(nèi)的挑戰(zhàn)。但高性能處理會(huì)消耗更多功率并產(chǎn)生更多熱量,設(shè)計(jì)團(tuán)隊(duì)必須在性能、功率和成本之間取得平衡。
添加傳感器融合——例如音頻、視頻、光、雷達(dá)——這會(huì)變得更加復(fù)雜。但至少可以利用一些行業(yè)經(jīng)驗(yàn)。
“解決視頻/圖像接口中傳感器融合問題的一個(gè)簡(jiǎn)單方法是采用 MIPI 標(biāo)準(zhǔn),”Mixel 營銷和銷售高級(jí)經(jīng)理 Justin Endo 說。“最初,MIPI 用于移動(dòng)行業(yè)。它現(xiàn)在已經(jīng)擴(kuò)展到涵蓋許多消費(fèi)者和 AI/ML 邊緣應(yīng)用程序。例如,推理處理器 Perceive Ergo 芯片具有 2 個(gè) MIPI CSI-2 和 2 個(gè) CPI 輸入以及一個(gè) MIPI CSI-2 輸出,它們支持兩個(gè)同時(shí)圖像處理管道——一個(gè)使用 4 通道 MIPI D 的高性能 4K -PHY CSI-2 RX 實(shí)例,以及一個(gè)使用 2 通道 MIPI D-PHY CSI-2 RX 實(shí)例的 2K/FHD。”
Perceive 的 Ergo 芯片是一種 ASIC,在視頻推理應(yīng)用中能夠以 20mW 的速度實(shí)現(xiàn) 30 FPS。其他 AI/ML 芯片可能會(huì)消耗 2 到 5 瓦,具體取決于芯片架構(gòu)。在家庭安全攝像頭等電池供電的設(shè)備中,低功耗很重要。低功耗使電池的使用壽命更長,在可穿戴應(yīng)用中,它還有助于設(shè)備在較低的溫度下運(yùn)行。
“效率很重要,”Perceive 首席執(zhí)行官 Steve Teig 說。“當(dāng)需要更高的性能時(shí),功耗的差異會(huì)更加明顯。例如,如果視頻性能提高到 300 FPS,那么 Ergo 芯片的功耗將在 200 mW 左右,而其他芯片的功耗可能在 20W 到 50W 之間。這可能很重要。”
然而,并非每個(gè)人都以相同的方式衡量性能和功率。推理永遠(yuǎn)在線 ASIC 供應(yīng)商Syntiant在由 tinyML 組織進(jìn)行的推理 Tiny v0.7 測(cè)試中展示了其性能。在一項(xiàng)測(cè)試中,其產(chǎn)品的延遲時(shí)間分別為 1.8 和 4.3 毫秒,而其他產(chǎn)品的延遲時(shí)間為 19 到 97 毫秒。在能源/功耗類別中,Syntiant 的得分為 35 µJ 和 49 µJ,而其他公司的得分為 1,482 µJ 到 4,635 µJ。據(jù) Syntiant 稱,這些芯片可以在 140uW 下運(yùn)行全面的推理操作。
但是在這些芯片之間進(jìn)行比較是一個(gè)雷區(qū)。沒有可用于衡量 AI/ML 推理性能的通用標(biāo)準(zhǔn)。因此,對(duì)于用戶來說,重要的是要了解芯片在特定領(lǐng)域的實(shí)際工作負(fù)載下的性能,并將其置于對(duì)該終端市場(chǎng)重要的背景中。在某些應(yīng)用程序中,性能可能比功耗問題更小,而在其他應(yīng)用程序中可能正好相反。準(zhǔn)確性與性能也是如此。為了實(shí)現(xiàn)更高的推理精度,需要更復(fù)雜的算法和更長的執(zhí)行時(shí)間。
“
結(jié)論
平衡所有這些因素是 AI/ML 推理的一個(gè)持續(xù)挑戰(zhàn)。什么是正確的芯片或芯片組合取決于應(yīng)用程序和用例。在某些情況下,它可能是完全定制的設(shè)計(jì)。在其他情況下,它可能是現(xiàn)成的標(biāo)準(zhǔn)部件和重復(fù)使用的 IP 的某種組合,它們拼湊在一起以滿足非常緊迫的期限。(半導(dǎo)體人才網(wǎng)站)
“人工智能算法變得越來越復(fù)雜,計(jì)算量和參數(shù)呈指數(shù)級(jí)增長,”西門子 EDA 的 Klein 說。” 計(jì)算需求遠(yuǎn)遠(yuǎn)超過芯片改進(jìn),促使許多設(shè)計(jì)人員在部署 AI 算法時(shí)采用某種形式的硬件加速。對(duì)于某些應(yīng)用,商業(yè)加速器或神經(jīng)網(wǎng)絡(luò) IP 就足夠了。但要求最苛刻的應(yīng)用程序需要自定義加速器,以將開發(fā)人員從 ML 框架快速帶入專門的 RTL。高級(jí)綜合 (HLS) 提供了從算法到面向 ASIC、FPGA 或 eFPGA 的硬件實(shí)現(xiàn)的最快路徑。HLS 減少了設(shè)計(jì)時(shí)間,或許更重要的是,它證明了 AI 算法已在硬件中正確實(shí)施,解決了許多驗(yàn)證挑戰(zhàn)。”