【半導體】黃仁勳 GTC 主題演講 9 大重點一次看

黃仁勳於 3/19 GTC 大會上發表主題演講,以下為 M平方整理的 9 大重點:

  1. Scaling Law 未死,算力需求將超越預期。
  2. 全球對數據中心的資本支出仍將繼續成長,規模達 1 兆美元。
  3. 合成數據的重要性。
  4. Nvidia 的生態系優勢。
  5. 推理模型算力需求,將帶動矽光子技術需求。
  6. 矽光子交換器 Quantum-X InfiniBand 和 Spectrum-X Photonics 即將出貨。
  7. 開源推理模型架構 NVIDIA Dynamo,加速推理效率。
  8. GPU 路線圖:Blackwell Ultra -> Rubin + Vera -> Feynman。
  9. 下一個數兆(Multi-Trillion)產業 - 機器人。

MM 研究員

Scaling Law 未死,算力需求超越預期。

幾乎整個世界都低估了 AI 算力需求,AI 的 Scaling Law 比預期的更具韌性,甚至進入超加速(Hyper-accelerated)階段, 隨著 Agentic AI 和 推理能力的發展,我們所需的計算量遠超過去年同期的預測——至少是當初估計的 100 倍。 推理 AI 的本質是「將問題逐步拆解」,這種變化導致生成的 Token 數量會大幅增加,因為目前 AI 的基礎技術仍然相同,仍是「生成或預測下一個 Token 」,因此推理模型可能是:1) AI 直接生成比傳統 LLM 多 100 倍的 Token 量;2) AI 模型變得更複雜,生成的 Token 變成 10 倍,但計算量仍然大幅上升。

因此為了保持 AI 反應迅速、即時互動(否則使用者等待過久會失去耐心),必須加速 AI 的計算效率,以適應劇增的推理需求。

全球對數據中心的資本支出仍將繼續成長,規模達 1 兆美元

在 Scaling Law 未死,算力需求大增下,全球數據中心(包括 CSP 、企業等)的資本支出預估,可在 2028 年左右將會超過 1 兆美元,且業界在各方面都正在轉移至 AI 加速運算,包括:

  • 過去使用檔案檢索式計算(Retrieval-Based Computing),軟體是人類手動編寫的,然後在電腦上執行。而現在及未來的軟體將由 AI 自動生成,計算機的作用從檢索(Retrieval)變成生成(Generative)
  • 儲存系統也必須徹底改造,從「基於檢索(retrieval)的儲存系統」轉變為「基於語義(semantics)的儲存系統」,將原始數據轉化為知識,然後在你需要訪問時,不再是檢索它,而是直接與它對話,因此整個儲存產業都會被 GPU 加速。
  • 未來軟體的開發也將需要大量資本投入:過去我們只需要手動寫好軟體並執行它,但現在電腦本身將成為「軟體生產者」,負責生成軟體所需的 Token。這意味著企業、雲端服務供應商或甚至個人開發者都需要重新規劃基礎設施,以適應 AI 時代的計算需求。
合成數據的重要性

我們可以生成數百萬個不同的範例,並讓 AI 進行數百次、數千次的嘗試,逐步解決問題。在這個過程中,我們使用強化學習來獎勵 AI,使其表現越來越好。因此,當我們涵蓋數百個不同的主題,每個主題又包含數百萬個範例,每個範例 AI 可能嘗試數百次,而每次嘗試都會生成數以萬計的 token(作為訓練數據),這一切加總起來,就意味著我們需要處理數兆級別的 token 來訓練 AI 模型。而機器人所需要的「行動」和「控制」數據也會帶動合成數據生成(Synthetic Data Generation)的興起 。

Nvidia 的生態系優勢

AI 的發展過程中你不能只是加速軟體。就像我們需要一個 AI 框架來創建 AI,你也需要為物理學、生物學、多物理場以及量子物理等領域創建相應的框架,而 Nvidia CUDA-X Libraries 涵蓋各種框架,包括 cuLITHO 、 AERIAL SIONNA 、 cuOPT 、 MONAI 、 EARTH-2 、 cuQUANTUM 、 cuDSS 、 WARP 等,以及機器人和自駕平台 Cosmos 、推理模型架構 NVIDIA Dynamo 和人形機器人基礎模型 GROOT N1,這些軟體護城河都將會讓各產業未來在應用 AI 上更加依賴 Nvidia 的生態系。

推理模型算力需求,將帶動矽光子技術需求

推理模型(DeepSeek R1 為例)會比傳統的 LLM 模型(Llama 3.3 70B 為例)花上 20 倍以上的 Token 數量以及 150 倍以上的算力,且未來模型會愈來愈複雜,推理模型的參數也將會愈來愈多,為了符合 AI 模型追求更快更好的推理性能的趨勢,有兩種策略提升系統性能「 Scale up 」和「 Scale out 」:

  • 因為要 Scale up(單一 rack 的性能提升),所以冷卻系統必須從氣冷(air-cooled)走到水冷(liquid-cooled),而線材繼續使用銅線因為短距離可以提供極高的可靠性且成本低。
  • 因為要 Scale out(rack to rack 的性能提升),NVlink 也開始從集成(integrated)到分離(disaggregated),線材部分因為數據中心的規模愈來愈大,因此需要更適合長距離傳輸的技術,將是矽光子(silicon photonics)發揮作用的地方。
矽光子交換器 Quantum-X InfiniBand 和 Spectrum-X Photonics 即將出貨

NVIDIA 宣布推出全球首款 1.6 Tbps 共同封裝光學(CPO)矽光子系統。這項技術基於微環諧振調製器(micro ring resonator modulator,MRMs),是一種突破性的光通訊技術,並採用台積電 COUPE 矽光子平台和 SoIC-X 封裝技術,將 65 奈米電子積體電路(EIC)與光子積體電路(PIC)整合。 2025 下半年 Nvidia 將開始出貨 Quantum-X InfiniBand,2026H2 將會出貨 Spectrum-X Photonics。

開源推理模型架構 NVIDIA Dynamo,加速推理效率

未來模型在推理時,會根據工作負載決定將更多的 GPU 用於解碼(Decode)或用於預處理(Prefill),而這種動態調整非常複雜,包括流水線並行(pipeline parallel)、張量並行(tensor parallel)、專家並行(expert parallel)、預處理前批處理(prefill batching)、分離推理(disaggregated inferencing)和工作負載管理(workload management),以及將 KV cache 導向正確的 GPU 以及在所有記憶體中的傳遞,這些管理極其複雜,因此 Nvidia 公佈了 NVIDIA Dynamo 的開源推理模型架構:透過分散式運算可協調並加速數千個 GPU 的推理傳輸,且支援包括 PyTorch 、 SGLang 、 NVIDIA TensorRT-LLM 和 vLLM,企業、新創與研究人員可使用熱門的 AI 框架進行部署,同時實現分散式推理,可提升 AI Factory 的性能、縮減回應時間與降低模型成本。

GPU 路線圖:Blackwell Ultra -> Rubin + Vera -> Feynman
  • 下一代 AI 晶片 Blackwell Ultra(GB300 系列)將於 2025 年下半年推出,記憶體容量提升 50% 以上,性能顯著優於現在地 Blackwell。
  • Rubin Ultra 大約 2027H2 推出,會擁有 576 個 GPU,每個機櫃 600 KW(GB200 是 144 個 GPU,每個機櫃耗電 120 KW)。
  • Vera CPU 將會用來取代目前的 Grace CPU。
  • Rubin 產品線將從 HBM3/HBM3e 轉向 HBM4,並在 Rubin Ultra 上採用 HBM4e。
  • 性能及成本:
    • 性能(Performance):Vera Rubin = 900x Hopper;Blackwell(GB200)= 68x Hopper
    • 成本(TCO/Perf):Vera Rubin = 0.03 Hopper:Blackwell(GB200)= 0.13 Hopper
  • 繼 Rubin 之後,2028 年將推出 Feynman 架構。
下一個數兆(Multi-Trillion)產業 - 機器人
  • Physical AI 將會以機器人的形式出現在各行各業,包括工廠、醫療和街道各種不同應用,而訓練機器人需要大量數據,除了網路上提供了「常識」跟「推理」的數據,但機器人更需要「行動」和「控制」的數據,且這些數據的獲取成本非常高,而基於 Nvidia 的 Omniverse 和 Cosmos 架構,開發者可以生成大量多樣化的合成數據來訓練機器人策略。例如 Omniverse 中使用了糖果色來展示如何在各情境中控制機器人,而 Cosmos 可進一步創造這個虛擬環境。
  • 將 GROOT N1 開源:全球首個開源人形機器人基礎模型 Isaac GROOT N1,配備新物理引擎訓練觸覺和靈活性,具有「慢思考」和「快思考」系統的雙架構,靈感來自人類認知處理,能夠輕鬆操控物體並協作完成多步驟任務 。

推薦閱讀

加入〈財經M平方〉官方Line,掌握最新行情!​

貼心提醒:
1.本公司所提供之即時報價資訊,不代表勸誘投資人進行期貨交易,且不保證此資料之正確性及完整性。
2.實際可交易商品相關資訊請以主管機關公告為限。