英特爾在其服務器平臺的競爭中面臨的一個關鍵缺陷是核心數量——其他公司正在通過以下兩種途徑之一實現更多的核心:更小的核心,或連接在一起的單個chiplet。
在 2021 年架構日,英特爾披露了有關其下一代至強可擴展平臺的功能,其中之一是向tiled 架構的轉變。英特爾將通過其快速嵌入式橋接器組合四個 tile/chiplet,從而在更高的內核數下實現更好的 CPU 可擴展性。
作為披露的一部分,英特爾還擴展了其新的高級矩陣擴展 (AMX) 技術、CXL 1.1 支持、DDR5、PCIe 5.0 和加速器接口架構,這些架構將來可能會讓定制 Xeon CPU成為可能。
Sapphire Rapids介紹:
Sapphire Rapids (SPR) 基于Intel 7工藝構建,這將成為英特爾用于 其Eagle Stream 平臺的下一代至強可擴展服務器處理器,使用了我們上周詳細介紹的最新 Golden Cove 處理器內核,Sapphire Rapids 將為英特爾帶來多項關鍵技術:加速引擎、原生半精度 FP16 支持、DDR5、300 系列 Optane DC 持久內存、PCIe 5.0、CXL 1.1、更廣泛、更快的 UPI、其最新的橋接技術 (EMIB)、新的 QoS 和遙測(telemetry)、HBM 以及工作負載專用加速。
Sapphire Rapids 將于 2022 年推出,這將成為英特爾首款利用多芯片架構設計的現代 CPU 產品,該架構旨在通過其嵌入式多芯片互連橋接技術最大限度地減少延遲和最大化帶寬。這個設計將允許集成更多的高性能內核(英特爾尚未透露具體數量),重點是“對其客戶群來說有個很重要的指標,例如節點性能和數據中心性能”。英特爾將 SPR 稱為“十年來 DC 能力的最大飛躍”。
PCIe 5.0 則是對上一代 Ice Lake PCIe 4.0 的升級,我們從 DDR4 的 6 個 64 位內存控制器遷移到 DDR5 的 8 個 64 位內存控制器。但更大的改進在于內核、加速器和封裝。
Golden Cove:具有 AMX 和 AIA 的高性能內核
通過在其企業平臺 Sapphire Rapids 和消費者平臺 Alder Lake 上使用相同的核心設計,我們在 2000 年代初期看到了一些相同的協同效應,當時英特爾做了同樣的事情。關于Alder Lake,這里有一個快速回顧:
任何內核的目標都是更快地處理更多的事情,而最新一代的內核試圖比以前做得更好。英特爾的許多變化都是有道理的。
Alder Lake 的消費者版本核心與 Sapphire Rapids 中的服務器核心之間存在一些差異。最明顯的一個是消費者版本沒有 AVX-512,而 SPR 將啟用它。SPR 每個內核還有一個 2 MB 的私有二級緩存,而消費者版本僅有 1.25 MB。除此之外,我們還討論了高級矩陣擴展 (AMX) 和新的加速器接口架構 (AIA)。
到目前為止,在 Intel 的 CPU 內核中,我們有標量操作(正常)和向量操作(AVX、AVX2、AVX-512)。下一階段是專用矩陣求解器,或者類似于 GPU 中的張量核心。這就是 AMX 所做的,通過以 TMUL 指令的形式添加具有專用 AMX 指令的新可擴展寄存器文件。
AMX 將 8 個 1024 位寄存器用于基本數據運算( basic data operators),并且通過內存引用(memory references),TMUL 指令將使用這些塊寄存器對數據塊進行操作。TMUL 通過一個內置于內核中的專用引擎協處理器(每個內核有一個)來支持,而 AMX 背后的基礎是 TMUL 只是一個這樣的協處理器。英特爾將 AMX 設計為更廣泛的范圍,而不僅僅是這樣——如果英特爾更深入地實施其多芯片戰略,在某個時候我們可以看到通過 AMX 啟用自定義加速器。
英特爾確認我們不應該看到任何比 AVX 更糟糕的頻率下降——當調用向量和矩陣指令時,每個內核都有新的細粒度電源控制器。
這非常適合討論新的加速器接口 AIA。通常,在使用附加加速卡時,命令必須在內核空間和用戶空間之間導航( navigate )、設置內存并在多個主機之間引導任何虛擬化。英特爾描述其新加速引擎接口的方式類似于與 PCIe 設備交談,就好像它只是 CPU 板上的加速器,即使它是通過 PCIe 連接的。
最初,英特爾將擁有兩個功能強大的 AIA 硬件位。
英特爾快速輔助技術 (QAT) 是我們之前見過的一種技術,因為它展示了 Skylake Xeon 芯片組的特殊變體(需要 PCIe 3.0 x16 鏈接)以及附加 PCIe 卡——該版本將支持高達400 Gb/s 對稱加密,或高達 160 Gb/s 壓縮加 160 Gb/s 解壓同時進行,是之前版本的兩倍。
另一個是英特爾的數據流加速器 (DSA)。 自 2019 年以來,英特爾一直在網絡上提供有關 DSA 的文檔,稱它是一種高性能數據復制和轉換加速器,用于通過 DMA 重新映射硬件單元/IOMMU 將數據從存儲和內存或系統的其他部分流式傳輸。DSA 是特定超大規模客戶的請求,他們希望將其部署在自己的內部云基礎設施中,英特爾熱衷于指出一些客戶將使用 DSA,一些將使用英特爾的新基礎設施處理單元,而一些將使用兩者,取決于他們感興趣的集成或抽象級別。英特爾告訴我們,DSA 是對 Purley (SKL+CLX) 平臺上的 Crystal Beach DMA 引擎的升級。
最重要的是,Sapphire Rapids 還支持半精度的 AVX512_FP16 指令,主要用于人工智能工作負載,作為其 DLBoost 策略的一部分。除了 INT8 和 BF16 支持外,這些 FP16 命令還可用作 AMX 的一部分。英特爾現在還支持 CLDEMOTE 進行緩存行管理。
關于 CXL 的一個副詞
在 Sapphire Rapids 的演示中,英特爾一直熱衷于強調它將在發布時支持 CXL 1.1。CXL 是一種連接標準,旨在處理比 PCIe 做的更多的事情——除了簡單地作為從主機到設備的數據傳輸之外,CXL 還支持三個分支,稱為 IO、緩存和內存。正如 CXL 1.0 和 1.1 標準中定義的那樣,這三個標準構成了連接主機與設備的新方法的基礎。
當然,我們期望所有 CXL 1.1 設備都支持所有這三個標準。直到幾天后的 Hot Chips,我們才了解到 Sapphire Rapids 僅支持部分 CXL 標準,特別是 CXL.io 和 CXL.cache,但 CXL.memory 不會成為 SPR 的一部分。我們不確定這在多大程度上意味著 SPR 不符合 CXL 1.1,或者這對 CXL 1.1 設備意味著什么——沒有 CXL.mem,如上圖所示,英特爾失去的只是 Type-2 支持。也許這更多地表明 CXL 2.0 更好地服務于 CXL 周圍的市場,這無疑會出現在以后的產品中。
?