最近媒體盛傳為了因應美國AI晶片新禁令,輝達已開發出最新改良版系列晶片:HGX H20、L20 PCle和L2 PCle,以替代被美國限制出口的H100。預計十二月發表HGX H20晶片和L20 PCIe GPU,明年一月推出L2 PCIe加速器。由於這三款晶片均基於Hopper GPU架構,所以理論上,H100比H20的速度快了6.68倍,但實測上,H20只能接近H100的50%。
這樣的效能能說服中國雲企業買單嗎?黃仁勳把中國雲企業當「盤啊」?!當然不是,黃仁勳很精準的對準了當下中國雲企業處在用大語言模型(LLM)訓練與推理的基礎建設階段,而H20跟最新的H200晶片同樣採用了NVIDIA Hopper架構,所以H20在Peta的LLM性能對比模型表現,H20在moderate batch size下峰值token/秒,比H100高出20%,在low batch size下的token to token延遲比H100還要低25%,這就是H20的賣點!從傳統計算的角度來看,H20相比H100有所降級,但在LLM推理這一方面,H20實際上會比H100快了20%以上。不知道這招能不能繞過美國商務部的新禁令?
11月13日美國時間輝達發表H200,搭配HBM3e,使得H200能以每秒4.8TB的速度提供141GB記憶體,與前前一代的A100相比,容量幾乎翻倍,頻寬增加 2.4倍。在處理Llama2(一個700億參數的LLM)等級的LLM模型時,H200的推理速度比H100提高了二倍。
HGX H200伺服器主機板與HGX H100系統的硬體和軟體相容。簡單說,H200其實就是配備HBM3e記憶體的獨立H100加速器的更新版本。明年開始採用H200的雲企業:微軟、谷歌、亞馬遜、甲骨文、CoreWeave、Lambda和Vultr。H200伺服器供應商:戴爾、惠普、美超微、Eviden、聯想、廣達QCT、華碩、技嘉、緯創、緯穎、華擎Rack。
H200基本上看起來就像是GH200的Hopper一半,作為自己的加速器。最大的區別是將HBM3替換為HBM3e,輝達啟用了第六個HBM記憶體堆疊,將使H200的記憶體頻寬從80GB提升到141GB,記憶體頻寬從每秒3.35TB提升到4.8TB。
記憶體頻寬對於HPC應用程式至關重要,CPU經常需要等待記憶體的資料回傳,超高的延時嚴重拖慢了運算設備整體的運行效率,記憶體頻寬逐漸成為限制電腦發展的關鍵,HBM是AMD和SK海力士聯合推出的基於3D IC堆疊技術的同步動態隨機存取記憶體(SDRAM),這些堆疊的晶片通過稱為中介層(Interposer)的超快速互聯方式,連接至GPU,達到普通記憶體8.5倍的頻寬,展現更快的資料傳輸,減少複雜的處理瓶頸,以及降低功耗,適用於高頻寬需求的應用場景。
HBM產值逐年倍增 帶動TSV和晶圓級封裝需求成長
由於EUV不可能做到一奈米以下,再過五到八年製程微縮走到盡頭,為了延續摩爾定律,未來先進製程要靠3D IC來延續,走向異質整合(將多功能晶片封裝在一起),SK海力士預測,在2027年之前,HBM市場將以82%的複合成長率保持成長,因為HBM每位元價格為一般DRAM的二十倍,未來仍將是DRAM的五到七倍水準,預期HBM產值可望逐年倍增,預期占整體DRAM產值比重將自今年的4%,快速攀升至2027年的20%。
每個HBM封裝內部都堆疊了多層DRAMDie,各層DRAMDie之間以矽穿孔(TSV)和微凸塊(microbump)連接,最後連接到下層的HBM控制器的邏輯die。由於HBM採用台積電的CoWoS堆疊技術,其中CoW(Chip on Wafer)是把晶片放在中介層上,至於後段oS放在基板上的製程,是日月光、矽品、Amkor、力成等擅長的。
但由於中介層價高且有良率問題,中介層缺料造成CoWoS產能不足,估計一年內只有台積電能做,為了搶市場,HBM將帶動TSV和晶圓級封裝需求成長,3D IC發展初期,包括半導體設備商、晶圓代工及封測業者均著眼於TSV研發,輕忽晶圓穿孔後須在背面執行Via-Reveal的製作問題。
著墨後段矽穿孔露出技術
力成自認可以用TSV將ISP和記憶體晶圓接合後,良率可超越同業以BGA方式進行結合。力成已經向設備廠下化學機械研磨(CMP)設備訂單,預期最快明年下半年可具備後段矽穿孔露出(Via Reveal)技術。