聯(lián)想近日宣布推出旗下首款基于AMD技術的AI服務器——聯(lián)想問天WA7785a G3。該服務器在單機部署671B(滿血版)DeepSeek大模型時,?實測最高吞吐量達到6708 token/s,刷新了大模型推理性能的行業(yè)標準。
這一突破得益于聯(lián)想萬全異構智算平臺的創(chuàng)新設計。通過訪存優(yōu)化、顯存優(yōu)化、PCIe 5.0全互聯(lián)架構以及SGLang框架中性能最優(yōu)算子的精選,聯(lián)想對DeepSeek大模型從預訓練、后訓練到推理的全流程進行了深度優(yōu)化。
在模擬問題對話場景(上下文序列長度128/1K)中,聯(lián)想問天WA7785a G3最高支持并發(fā)數(shù)158,TPOT(每次輸出時間)為93毫秒,TTFT(首次輸出時間)為2.01秒。而在模擬代碼生成場景(上下文序列長度512/4K)中,并發(fā)數(shù)可達140,TPOT為100毫秒,TTFT為5.53秒。
這一性能表現(xiàn)意味著單臺聯(lián)想問天WA7785a G3可支撐1500人規(guī)模企業(yè)的日常需求,相比此前聯(lián)想問天WA7780 G3服務器單機部署DeepSeek大模型時2500 token/s的吞吐量,實現(xiàn)了顯著提升。
聯(lián)想表示,此次突破是聯(lián)想中國基礎設施業(yè)務群、聯(lián)想研究院ICI實驗室與AMD聯(lián)合設計、協(xié)同調(diào)優(yōu)的成果。目前,雙方仍在探索深度調(diào)優(yōu)的新方法,以進一步提升性能。
此外,聯(lián)想問天WA7785a G3的推出也標志著聯(lián)想在AI服務器領域的技術積累進一步深化。隨著大模型應用場景的不斷擴展,高性能、低延遲的AI服務器將成為企業(yè)數(shù)字化轉型的關鍵基礎設施。