芯片設計的風險很高,研究人員一直在努力朝著更優化的設計邁進。隨著我們轉向小芯片設計,所有小芯片都需要互連才能成為虛擬單片芯片,并且必須考慮延遲和功耗對此類電路復合體的影響。(半導體招聘)
人工智能技術也必然會幫助我們設計芯片,這也是我們幾年前與谷歌工程師討論過的事情。谷歌這家云計算巨頭也繼續努力用人工智能技術來進行芯片設計:今年3月,谷歌研究院的科學家們推出了一種深度學習方法PRIME,它可以利用現有數據,造出比使用傳統工具設計的芯片更快、更小的加速器設計。
“也許使用先前設計的加速器數據庫進行硬件設計的最簡單方法,是使用監督機器學習來訓練預測模型,該模型可以預測給定加速器的性能目標,”他們在一份報告中寫道。“然后,通過優化這個學習模型與輸入加速器設計相關的性能輸出,人們可能會設計新的加速器?!?/p>
一年前,谷歌公司使用了一種名為強化學習(RL)的技術來設計TPU 人工智能技術加速器。不僅僅是谷歌在做這些。Synopsys和Cadence等芯片設計工具制造商都在將人工智能技術技術應用到自己的產品中。
現在英偉達推出了一種方法,該公司的三位深度學習科學家最近寫道,利用人工智能設計更小、更快、更高效的電路,能在每一代芯片中提供更高的性能。大量的算術電路陣列為英偉達 GPU提供了動力,使其在人工智能、高性能計算和計算機圖形學方面實現了前所未有的加速。因此,改進這些算術電路的設計對于提高 GPU 的性能和效率至關重要。
英偉達將深度強化學習技術稱為PrefixRL,并表示該技術證明人工智能技術不僅可以從頭開始學習設計電路,而且人工智能設計的電路也比最先進的電子設計自動化(EDA)工具設計的電路更小更快。最新 NVIDIA Hopper GPU 結構 擁有近13000個人工智能設計電路實例。
EDA工具(右)設計的電路小25% ,同時速度快,功能等效
在一篇關于PrefixRL的研究論文中,研究人員表示他們關注一類流行的算術電路,稱為(并行)前綴電路。GPU中的各種重要電路,如加法器、增量器和編碼器,都是前綴電路,可以在更高級別上定義為前綴圖。
他們專注于一類稱為并行前綴電路的算術電路,其中包括加法器、增量器和編碼器等電路,所有這些都可以在更高級別定義為前綴圖表。Nvidia特別提出了一個問題:人工智能代理能否設計出良好的前綴圖?
計算機芯片中的算術電路是使用邏輯門(如NAND、NOR和XOR)和導線組成的網絡構建的。理想電路應該很小,以便芯片上可以容納更多,快速減少延遲,并盡可能減少功耗。對于PrefixRL,研究人員的重點是電路的大小和速度,他們說這往往是相互競爭的特性。挑戰就在于找到最有效地利用兩者之間的權衡的設計。
由于這些物理合成優化,最終電路特性(延遲、面積和功率)不會直接從原始前綴圖特性(如電平和節點數)轉換。這就是為什么人工智能代理學習設計前綴圖,但優化由前綴圖生成的最終電路的屬性。
研究人員將算術電路設計作為強化學習 (RL) 任務,我們訓練一個代理來優化算術電路的面積和延遲特性。對于前綴電路,我們設計了一個環境,RL 代理可以在其中添加或刪除前綴圖中的節點。
設計過程將前綴圖合法化,以確保它始終保持正確的前綴和計算,之后,從合法化的前綴圖創建電路。然后,使用物理合成工具對電路進行物理合成優化,最后測量電路的面積和延遲特性。在整個過程中,RL代理通過添加或刪除節點逐步建立前綴圖。
英偉達研究人員在他們的工作中使用了完全卷積神經網絡和Q學習算法(一種RL算法)。該算法對前綴圖使用網格表示,其中網格中的每個元素唯一地映射到前綴節點。這種網格表示法用于Q網絡的輸入和輸出。輸入網格中的每個元素表示節點是否存在。輸出網格中的每個元素表示用于添加或刪除節點的Q值。
運行PrefixRL的計算需求很大。據研究人員稱,物理模擬每個GPU需要256個CPU,64b 案例需要 32000 GPU 小時。為了滿足這些需求,英偉達創建了一個名為“Raptor”的分布式強化學習平臺,該平臺專門利用英偉達硬件來實現這一級別的強化學習。
Raptor 具有一些增強可擴展性和訓練速度的功能,例如作業調度、自定義網絡和 GPU 感知的數據結構。在PrefixRL的背景下,Raptor使得跨CPU、GPU和Spot實例的混合分配工作成為可能。
Raptor還包含GPU感知數據結構,用于并行批處理數據并將其預取到GPU。(芯片人才)
研究人員表示,RL代理能夠僅基于從合成電路屬性反饋中學習,來設計電路,在相同延遲下,最好的 PrefixRL加法器的面積比EDA工具加法器低 25% 。
“據我們所知,這是第一種使用深度強化學習代理來設計算術電路的方法,”研究人員寫道?!拔覀兿M@種方法可以成為將人工智能應用于現實世界電路設計問題的藍圖:構建動作空間、狀態表示、RL代理模型、針對多個競爭目標進行優化,以及克服物理合成等緩慢的獎勵計算過程?!?/p>