在大算力自動駕駛芯片這個世界杯比賽中,地平線與英偉達已經率先進入百TOPs芯片前裝量產的階段,提前鎖定了決賽席位,這場決賽是場硬仗。
從2019年一季度征程5開始立項研發,2021年2月,征程5在臺積電順利tapeout,5月,芯片一次性流片成功,15小時內完成了全部的核心功能測試,到2021年7月征程5正式發布,這對地平線和整個行業來講都是一個里程碑的事件。征程5單顆AI芯片算力最高可達128TOPs,作為國內首款百TOPS級的自動駕駛大算力AI芯片,征程5開啟了中國大算力芯片的里程碑的時代。(芯片人才)
軟硬結合,征程5性能再提升20%
在硬件架構和算法都沒有變的情況下,征程5 的AI計算效能從最初發布的1283FPS提升到了1531FPS。這是怎么做到的?答案是軟件。
從神經網絡計算推動整個自動駕駛大行其道,到走向L2+高階的輔助駕駛感知方案,再從L2、L3、L4走向L5,隨著自動駕駛級別的提升,它所需要的算力幾乎是指數級的爆炸式的增長,每往上走一級至少有10倍以上算力需求的提升,大規模并行化的AI計算,使得大算力的計算平臺變成一個行業的必須。自動駕駛逐步由數據驅動替代傳統基于規則的計算。
目前主流的自動駕駛方案大致可以分為四個階段,分別是廣義感知、地圖融合、規劃和控制。每個階段的任務在軟件1.0時代實現用規則,然后在不同程度上過渡到用數據驅動的軟件2.0,但是包括地平線和特斯拉在內的企業,都比較激進的把這四個階段的pipeline融合,把更多的信息融合在一起。這樣做的好處是,一方面能夠大幅提升整個自動駕駛系統的精度、魯棒性、適用度,再就是可以大幅改進算法迭代的速度。
地平線聯合創始人&CTO黃暢認為,在未來,廣義感知幾乎百分之百都是靠數據驅動的,而在規劃和控制階段80%~90%也是靠數據驅動完成的,如必要交通規則,包括人為專門制定的一些規范性要求,只需要極少量的規則。所以面向未來的自動駕駛算法,支持數據驅動、神經網絡模型推理計算的專用芯片占比會顯著增加,而CPU這樣的處理器的需求量則不會顯著增加。
傳統意義上芯片總是講求PPA,但是AI芯片往往要講APPA,前面多出來的A是accuracy,值得是算法的精度。地平線認為,加速高等級自動駕駛落地的根本途徑是,范式級的智能算法和支持這種算法的硬件體系相結合,也就是我們經常說的軟硬結合。通過軟硬協同優化的方式,在首重效能的情況下,地平線打造出兼顧靈活的新一代AI計算架構。
地平先征程5所采用的是第三代BPU架構,稱之為貝葉斯。每一代BPU架構地平線都用一個數學家的名字來命名,第一代叫高斯,第二代叫伯努利,第三代叫做貝葉斯,據黃暢透露,下一代是納什。BPU(Brain Processing Unit)是先進處理器技術的集大成者,其最大特點是高性能、低延遲、低能耗。那么BPU架構是怎么做到的呢?BPU凝聚了對AI、深度學習和自動駕駛場景的深度洞察:通過聚焦最新的神經網絡架構來服務真實的自動駕駛場景,堅持高度軟硬件的并行化,另外,還有近存計算,極大優化內存占有與訪存,夠靈活訪問的高帶寬的存儲。所有這些將保障BPU在非常靈活的條件下提供足夠好的算力密度和能效比。
地平線認為,評估一個AI芯片最合理的目標是FPS/Watt或FPS/$。這個值可以拆解成三個部分,對應達成這個目標的三個架構設計。第一是TOPS/Watt&TOPS/$,這個數值是由硬件架構所決定,通過工藝的演進可以持續改善,TOPS這個數值大家不會做出太大的差異,但是在第三個數值,FPS方面卻有巨大的差異。FPS(Frames Per Second),即為單位的有效算力所實現算法處理的速度,FPS更能夠反映AI芯片的真實計算性能。FPS由算法架構決定。也稱之為是算法的新摩爾定律,大體上是在9-14個月的時間內將AI任務需要的計算次數、復雜度降低一半。而另一個Utilization則屬于是軟件架構,征程5性能的提升就來源于此。地平線的理念是能讓軟件做的事情盡可能讓軟件做,硬件做簡單、極致、高效且容易被軟件靈活調用的功能。這也使得征程5能從去年7月份以后提升20%的軟件架構效率。
按照這個評估依據,我們來看下征程5的表現。在典型分類模型下,征程5在處理單幀輸入的百萬像素大圖時,其性能達Xavier的 6.2倍;針對高效模型(EfficientNet)更接近自動駕駛場景的物體檢測,同精度下,征程5的性能是Xavier的9倍多。按照Orin的官方數據來推算,征程5也是遠高于Orin的。
量產是檢驗智能駕駛AI芯片的首要標準
自從去年7月份地平線正式發布征程5以后,截止到目前,征程5已經率先斬獲了多家車企的量產定點,這其中包括國內豪華車品牌紅旗,以及新能源車的銷量領導者比亞迪,造車新勢力自由家。目前征程5也將是國內首款實現前裝量產的百TOPS大算力AI芯片。
一顆AI芯片能跟車企達成前裝量產的合作,是要經歷重重考驗的。從自動駕駛芯片本身的評估來看,征程5可以稱之為是全面滿足高等級自動駕駛量產需求的一款芯片。它具有強大的深度學習計算能力,多樣化計算組合、豐富的傳感器接口和通訊能力,完全針對自動駕駛場景,滿足全車電子電氣架構的需求,領先的自動駕駛算法閉環驗證。今年底地平線就會拿到全套的國際安全認證,征程5的完整芯片方案均符合ASIL-B產品認證標準。
征程5芯片發布的同時,也發布了基于征程5的高等級自動駕駛視覺感知方案原型。地平線歷屆的發布會都是在發布芯片同期交出基于芯片實時跑通的感知Demo,這也是地平線一直以來「Talk is cheap,show me the product」的風格。2022年4月份,征程5在實車環境下完成了城區復雜場景自動駕駛的閉環驗證,征程5對領先自動駕駛算法的完美支持性也得到進一步證明。
從2022年6月份開始,有多家軟件生態伙伴推出基于征程5開發的高等級自動駕駛方案,并陸續推出原型Demo,這也進一步證明征程5與開發工具在支持合作伙伴開發的敏捷性與成熟度。
不止如此,為了幫助車企去交付車,地平線提供了一整套豐富、成熟、完善的系統工具。如下圖所示,從最上層的參考算法到下面的應用中間件、基礎中間件、操作系統以及硬件參考平臺,再到芯片、工具鏈、AI開發平臺,完整的一套開發環境其實是幫助我們的客戶大幅地降低了在地平線芯片平臺上開發的難度、花的時長、投入的成本,提升開發效率。地平線智能駕駛產品規劃與Marketing高級總監呂鵬的介紹到。
從最底層開始看,除了征程5芯片,地平線提供豐富的AI開發套件給合作伙伴和客戶去實現高效的軟件開發,例如征程5的EVM開發版、征程5最小的模組系統、PCIe形式的集群加速卡、Matrix 5整車智能計算參考平臺。
Matrix 5是更接近于量產級的參考設計,它包括多種形態,這也是征程5現在在市場上幾個主打形態的細分市場,包括單顆征程5、雙顆征程5以及4顆征程5的硬件方案,對應的算力可以從128TOPS到最高512TOPS,而且這些硬件方案都提供了相應的原理圖參考設計,可以加快整個行業使用它快速地設計好自身的產品。據悉,到現在已經有10家的相關的合作伙伴推出了基于Matrix 5相關參考設計的域控產品;也有多家在行業中拿到了車型的定點,面向相關的量產項目去進行相關的開發和交付。
面向征程5,地平線在Linux上提供可靠性和安全性的增強方案。還有提供安全可靠的執行環境和相關的基礎服務的應用中間件。面向高等級的自動駕駛,地平線在征程5上提供了相應的應用開發環境。
在開發工具方面,地平線有天工開物平臺和艾迪平臺。其中天工開物的AI工具鏈可以提供非常高效的自動化環節,幫助客戶以最小的精度損失實現量化的過程;AI的艾迪開發工具平臺是地平線面向軟件2.0趨勢的一個背后引擎,它是一個能進行高效AI訓練、測試和管理的工具平臺。
“生態建設不是一朝一夕,我們花了很多年的時間一直建設我們的軟件生態,工具鏈有了上百家合作伙伴的賦能經驗,他們在使用中給我們提供了很多反饋和輸入,我們也不斷進行迭代,逐漸形成非常多的參考樣例、參考算法,這樣幫助我們的客戶能夠更加易用我們的工具鏈,更加快速地去使用我們的工具鏈。”呂鵬指出,“地平線的定位還是Tier2,通過芯片+工具鏈和平臺打造開放共贏的合作模式。圍繞地平線的芯片平臺,正有越來越多生態合作伙伴和越來越多的資源,支持Tier1和OEM完成他們的量產和交付。”(半導體人才)
結語
綜上,地平線能實現快速的量產落地,背后的原因是一系列從芯片設計的思考到整個開發環境到完整成熟工具的支撐。后續地平線會持續地推動征程5完成全部車規可靠性測試與全面功能安全認證工作,并在年內達到量產成熟水平。年末基于征程5芯片的首個量產項目也會正式SOP。自動駕駛芯片量產決賽已打響,國產廠商必有一席。
來源:半導體行業觀察