首頁 > 最新新聞 > 今年ASIC AI伺服器佔比預估近三成;輝達推出多元產品應戰

今年ASIC AI伺服器佔比預估近三成;輝達推出多元產品應戰

2026/03/19 2

MoneyDJ新聞 2026-03-18 17:14:07 新聞中心 發佈

根據TrendForce最新的AI伺服器研究,隨著大型雲端服務供應商(CSP)加強自家晶片的研發,輝達(NVIDIA)在GTC 2026大會上轉變策略,開始重視各領域的AI推理應用落地,不再像以前那樣專注於雲端AI訓練市場。輝達推出了GPU、CPU和LPU等多元產品線,各自針對AI訓練和推理需求進行攻擊,同時透過Rack整合方案來促進供應鏈成長。

TrendForce指出,隨著以Google、Amazon等CSP為首的自研晶片勢頭擴大,預估ASIC AI伺服器(伺服器)在整體AI伺服器出貨中所占比例將從2026年的27.8%(左圖),提升到2030年的近40%。

為了鞏固在AI市場中的領導地位,NVIDIA採取了一項策略,就是積極推動GB300、VR200這類整合CPU與GPU的全櫃式方案,強調可以擴展至各種AI推理應用。在這次GTC發表的Vera Rubin被定義為一個高度垂直整合的完整系統,包括7款晶片和5款機櫃。

觀察Rubin供應鏈進度預計,在2026年第二季記憶體廠商將能提供HBM4給Rubin GPU使用,有助於NVIDIA在第三季前後持續出貨Rubin晶片。至於NVIDIA GB300、VR200 Rack系統出貨情況方面,前者已經在2025年第四季取代GB200成為主力產品,而預估到2026年其出貨占比可望接近80%;而VR200 Rack則約在2026年第三季底有望逐步展開出貨能力,但後續發展仍需依照ODM實際進度來決定。

另外,在生成Token跨入代理模型時代之際,在解碼(Decode)階段面臨嚴重延遲及記憶體頻寬瓶頸。因此NVIDIA結合Groq團隊技術推出專門設計低延遲推理用途的Groq 3 LPU,每顆內建500MB SRAM,全機櫃可達128GB。

不過LPU本身記憶體容量無法容納Vera Rubin等級的大量參數與KV Cache(KEY-VALUE Cache)。因此NVIDIA此次GTC提出「解耦合推理(Disaggregated Inference)」架構,以名為Dynamo的AI工廠作業系統,把推理流程分成兩部分。在處理代理型AI時,需要大量數學運算並儲存龐大的KV Cache,其Pre-fill和Attention運算階段交由具備高吞吐量及巨量記憶體的Vera Rubin執行;而受到頻寬限制且對延遲極度敏感的解碼與Token生成階段則直接卸載到擁有更大記憶體容量LPU機櫃上。

就供應鏈進度而言,第3代Groq LP30由Samsung代工,目前已經全面量產,預計會在2026年下半年正式出貨,而未來還規劃下一代Feynman架構中推出效能更高的新LP40晶片。