佳礼资讯网

 找回密码
 注册

ADVERTISEMENT

查看: 254|回复: 3

GPU vs TPU (ASIC)

[复制链接]
发表于 27-11-2025 08:54 AM 来自手机 | 显示全部楼层 |阅读模式
這兩天,最熱烈的討論就是「究竟TPU能否取代GPU了」。

正反雙方的意見百花齊放,其中一個廣為流傳的說法是:

TPU由於其專用設計,只適合相對簡單的「推理」(Inference),而複雜龐大的模型「訓練」(Training)則必須依賴通用性更強的GPU。

這種說法,也不能說錯,但也總有哪裡不太對。

說它是「錯誤」,是因為Google的王牌模型Gemini,從誕生到現在稱霸,其訓練過程完全由自家的TPU晶片驅動。

這證明了:TPU可以訓練頂級模型。

但說它是「正確」,是因為對於Google之外的幾乎所有公司而言,可能的確只能用GPU進行訓練。

為何同一件事,在Google手上是稱霸的武器,在別人手裡卻玩不轉?

▋Gemini的「三部曲」登頂之路

首先,讓我們看看Google是如何用事實證明「TPU可以訓練」這個命題的。Gemini的演進史,就是TPU訓練能力的最佳宣言。

第一部曲:Gemini 1.0 (2023年12月) — 概念驗證的宣言

這是一切的轉捩點。在此之前,儘管Google自2016年起就開始研發TPU,但其頂級模型的訓練往往仍依賴GPU與TPU的混合集群。

Gemini 1.0的誕生,標誌著Google首次完全使用自家的TPU v4和v5e晶片,成功訓練出一個前沿模型。

第二部曲:Gemini 2.0 (2024年12月) — 規模化複製的擴張

如果說第一代是證明「可以」,那麼第二代就是證明「可以被複製和擴展」。隨著第六代TPU晶片「Trillium」的推出,其訓練性能比前代提升了四倍以上。

Gemini 2.0的訓練和推理100%在TPU上完成,部署規模擴大到超過10萬顆Trillium晶片。

這一步,展示了Google TPU戰略的穩定性和可擴展性,證明了Gemini 1.0的成功並非偶然,而是一個可持續、可放大的勝利。

第三部曲:Gemini 3.0 (2025年11月) — 登頂稱王的加冕

時間點去到現在,也是引起最多爭論的地方。

Gemini 3.0完全在最新一代的TPU晶片上訓練完成,其性能在多個權威的第三方AI基準測試中登頂,甚至超越了那些在NVIDIA GPU上訓練的頂級模型。

▋破解「TPU僅限推理」的迷思

現在,讓我們回到那個「TPU僅限推理,GPU才能訓練」的說法。

這個說法之所以廣為流傳,部分原因在於Google自身的戰略選擇。

其最新的TPU v7 Ironwood,就被明確定義為「為推理時代打造的第一款TPU」。

它的設計目標極為清晰:為Google搜尋等即時應用提供極低延遲的響應,並針對大規模語言模型(LLM)和混合專家模型(MoE)進行深度優化。

但這是否意味著TPU就不能訓練了?恰恰相反。

TPU並非只能做一件事的晶片,它的整個架構(如脈動陣列 Systolic Array)都是為了AI運算中最核心、最頻繁的操作而設計的。

它透過一次性載入數據,讓數據在龐大的運算單元之間直接流動,極大地減少了對記憶體的反覆讀寫。

這使得TPU在執行AI任務時,能將更多的時間花在「計算」本身,而非「等待數據」,從而達到驚人的能效比。

相比之下,GPU擁有數千個通用核心,功能強大且靈活,能應對各種並行計算任務。但正是這種「通用性」,使得它在處理純粹的AI運算時,必然會有一些架構上的冗餘和效率損耗。

因此,Gemini的「三部曲」證明了:TPU並非不能訓練,而是它在「訓練」和「推理」這兩條AI核心賽道上,都表現得像一輛F1賽車一樣極致高效。

Google之所以將Ironwood的宣傳重點放在「推理」,是因為推理是AI商業化應用中成本佔比最大(約90%)、規模最廣的環節,也是他們希望能勝出的戰場。

▋真正的枷鎖是經濟學與風險

那麼,為何市場普遍認為ASIC(TPU是其中一種)「只適合推理」?

答案是:這句話在技術上不準確,但在經濟學上卻非常準確。

這種看法的根源,來自於專用晶片(ASIC)與通用晶片(GPU)之間,在架構、市場和成本上的根本性權衡。

架構的根本衝突:訓練求「變」,ASIC求「穩」。

- 訓練需要靈活性: AI研究日新月異,研究人員每天都在實驗新的網路架構、注意力機制和優化器。訓練過程充滿了探索和不確定性。

- ASIC為固定而生: ASIC的本質是將一個「固定」的演算法「硬化」到晶片上,以換取極致的效率。如果你為今天的訓練演算法投入數億美元製造了一款ASIC,而明天演算法被顛覆,這批晶片可能瞬間變成一堆昂貴的「矽磚」。這種「沉沒資產風險」是災難性的。

- 推理是穩定的: 一旦模型訓練完成,其推理過程就是固定的前向傳播。計算模式是確定且重複的,這正是ASIC發揮專長的的理想場景。

2. 市場經濟的理性選擇:推理的巨大回報 vs. 訓練的一次性賭博。

- AI模型生命週期中,超過90%的算力成本消耗在「推理」上。一個超大規模模型(Hyperscaler)可能只訓練一次,但每天需要服務數十億次的推理請求。

- 因此,為推理設計的ASIC擁有巨大的投資回報率(ROI)。這也解釋了為何像Broadcom和Marvell這樣的公司,能夠圍繞推理ASIC建立起數十億美元的業務。

- 相比之下,投資一款專用訓練ASIC,就像一場高風險、低頻次的一次性賭博,經濟上極不划算。

3. 成本優化的陷阱:訓練ASIC的「名不副實」。

- 推理專用ASIC能達到比GPU高上不少的能效比,正是因為它拋棄了所有非必需的組件:它可以使用更低的數據精度,硬化特定的運算核心,並移除與反向傳播無關的複雜邏輯。

- 而一款能夠訓練的ASIC,則必須保留高精度浮點運算、支持反向傳播、具備靈活的控制流……這恰恰削弱了ASIC「專用化」帶來的核心優勢,使其變得「名不副實」。

▋Google的破局之道:以「垂直整合」化解風險

那麼,為甚麼Google卻可以用TPU來訓練?

因為Google同時設計TPU硬體和Gemini的訓練演算法,它可以讓兩者同步演進,形成一個內部閉環。

如果Google的研究人員發現了更優的訓練技術,他們可以立即反饋給硬體團隊,在下一代TPU中進行優化。

TPU部署在Google自家的數據中心,由Google完全掌控,不存在「外部客戶」的概念。(當然如果之後Meta真的購買TPU,就是另一境象了)

▋結論:一場屬於「系統整合者」的特權遊戲

所以,讓我們回到最初的問題:ASIC(如TPU)真的不能用於訓練嗎?

一個更準確的說法是:在絕大多數商業情境下,專為「訓練」設計的ASIC,是一場極其不理性的賭博。

對於幾乎所有公司而言,投入巨資開發一款可能在幾個月內就因演算法變更而過時的訓練晶片,是不可想像的。因此,選擇更靈活、生態更成熟的GPU,是唯一理性的商業決策。

Google之所以能成為那個唯一的例外,並非單純因為它的晶片設計能力,而是因為它建立了一個龐大且封閉的「垂直整合生態系」。在這個生態系中,Google的硬體(TPU)和演算法(Gemini)同步演進、深度綁定。

這也完美解釋了為什麼這項「特權」無法輕易複製或出售。

Meta有可能放棄自己的研究路線,去被動適應Google的硬體和軟體框架嗎?至少在訓練上並不可能去賭,最多在推論上可以先試試。

因此,在AI的牌桌上,用ASIC進行大規模模型訓練,並非單純的技術問題,而是一個關乎商業模式與生態掌控權的戰略問題。

暫時,這仍是一場專屬於Google的特權遊戲。

- KP

p.s. 我剛在Substack發布了近兩萬字的深度報告,獨家剖析 Google x TPU x Broadcom,以及大家爭論不休的「究竟TPU能否取代GPU」。這篇文章將徹底改變您對這場晶片戰爭的看法。

立即訂閱,讓您的投資洞察力,領先市場一步。
回复

使用道具 举报


ADVERTISEMENT

 楼主| 发表于 27-11-2025 08:55 AM 来自手机 | 显示全部楼层
#為何說Nvidia的GB200巨獸,#只是在向十年前的Google致敬?

2024年的GTC大會上,當黃仁勳費力地指著那座名為GB200 NVL72的黑色巨塔時,全場分析師都在為那天文數字般的算力歡呼。但對於熟悉大型分散式系統的資深架構師來說,這一幕既震撼又諷刺。

震撼在於Nvidia終於把單機櫃的工程密度做到了極致;諷刺在於,這頭由72顆晶片組成的銅纜巨獸,恰恰證明了Nvidia正在拚命追趕Google早在2015年就確立的技術哲學:#單晶片已死,#系統即晶片。

這場戰爭的本質,早已從單兵作戰演變為軍團陣法。我們必須拆解這場被股價掩蓋的技術真相。

#通訊牆:摩爾定律失效後的真實戰場

過去十年,我們習慣了晶片製程從14奈米一路殺到3奈米,誤以為只要電晶體夠多,AI就能無限變強。現實給了所有人一記耳光。當模型參數突破兆級,單顆GPU就算強如H100也只是滄海一粟。訓練一個大模型需要幾萬顆GPU同時運算,這時真正的瓶頸不再是「算得有多快」,而是「傳得有多快」。

試想一下,你有72台法拉利(GPU),但它們被困在台北內湖下班時間的車陣中(頻寬瓶頸)。這時法拉利的引擎再好也沒用,整支車隊的速度取決於最慢的那台車,以及糟糕的交通號誌。這就是傳統資料中心面臨的「通訊牆」。

Nvidia過去依賴InfiniBand網路來解決這問題,這方案成熟但昂貴,而且需要大量的光電轉換模組(Optical Transceivers)。電訊號轉光訊號再轉回電訊號,每一次轉換都是延遲,都是熱量,都是燒掉的美元。

#Google的先見之明:用鏡子玩轉資料中心

Google早在開發TPU v2時就意識到這個物理限制。作為一家不靠賣晶片賺錢、只為了自家業務最佳化的公司,Google選擇了一條極其冷門且硬核的道路:光路交換(OCS, Optical Circuit Switching)。

這正是Google不想讓你知道的秘密武器。傳統交換器是紅綠燈,車子(數據)到了路口要停下來確認方向;Google的OCS則是一套由微機電系統(MEMS)控制的微小鏡子陣列。它不需要把光訊號轉成電訊號來讀取封包去向,而是直接透過調整鏡子角度,物理反射光線。

這意味著什麼?這意味著Google創造了一種「與數據傳輸率無關」的交換結構。無論你的頻寬升級到多少,鏡子只是負責反射光,不需要升級電子元件。更可怕的是這賦予了TPU叢集動態變形的能力。如果有幾台機器掛了,OCS轉一下鏡子角度,瞬間就能繞過故障節點重新組網。這就像是一列行駛中的高鐵,可以隨時在不停車的情況下重新編組車廂。

Nvidia GB200 NVL72:#暴力美學的極致與妥協

回頭看Nvidia的GB200 NVL72,你會發現黃仁勳做了一個極其大膽的決定:他在機櫃內部放棄了光,全面擁抱銅。

NVL72背後那5000條密密麻麻的銅纜,是Nvidia為了繞過光電轉換損耗所做的暴力解法。在單一機櫃的短距離內,銅纜傳輸速度極快且無需昂貴的光電收發器。Nvidia透過NVLink Switch把72顆Blackwell GPU在電氣屬性上「焊」成了一顆超級晶片。

這確實是工程學的奇蹟,但這也暴露了Nvidia的焦慮。NVL72本質上是承認了「傳統網路互連效率太差」,所以必須把72顆晶片硬塞進同一個機櫃,用銅線把它們綁死在一起。這是一種「垂直擴展(Scale-up)」的極致表現,適合賣給微軟或Meta這種需要立刻見效的客戶。

但這也有代價。銅纜傳輸距離極短,出了這個機櫃,Nvidia還是得乖乖回去用InfiniBand或乙太網路,面對那些Google早已用OCS解決掉的擴展性與成本難題。

#殊途同歸的終局

Google走的是「水平擴展(Scale-out)」的優雅路線,用光學技術讓幾萬顆TPU像水一樣流動,成本低、彈性高,是為了長跑而生的馬拉松選手。Nvidia走的是「垂直堆疊」的暴力路線,用銅纜打造出單點最強的爆發力,是百米衝刺的冠軍。

如今的局勢很清楚:#Nvidia正在變得越來越像Google。NVL72的出現,標誌著Nvidia不再只是一家晶片公司,而是一家「#資料中心系統商」。他們終於跟上了Google十年前的思維——#在AI時代,#最小的運算單位不再是晶片,#而是機櫃,#甚至是整座資料中心。

這場算力戰爭,表面上Nvidia贏了市佔率,賺走了全世界的錢;但在架構哲學的深層博弈中,Google那位戴著眼鏡的架構師,恐怕正看著NVL72的銅纜叢林,露出了一抹「我早就說過了吧」的微笑。

#GoogleTPU #NvidiaGB200 #NVL72 #AI晶片 #光路交換OCS #資料中心架構 #NVLink #科技護城河
回复

使用道具 举报

 楼主| 发表于 27-11-2025 08:56 AM 来自手机 | 显示全部楼层
Google 下一個獵殺的目標,輝達危險了嗎?

Gemini 3.0 橫空出世,再加上一個 Nano Banana Pro,Google 這次端上了滿漢全席。大家生圖生的不亦樂乎時,一個平常不太受注意的名詞正悄悄浮上檯面,而這個東西,正常影響全世界目前 AI 硬體生態的重要技術,沒錯,就是你最近常聽到的 TPU。

TPU 本身不是什麼特別難懂的技術,但相對於 GPU,你肯定對它更陌生。嚴格來說,我們看到皮衣老黃每天穿梭在台灣的夜市,大部分人對 GPU 的認識和股市的暴漲,想到 AI 就想到輝達的 GPU,甚至很多人覺得 AI 就是 GPU。但在 Google 的長久精心的佈局之下,輝達的好日子恐怕是真到頭了。

人工智慧需要大量的運算,現在深度學習的運算大部分就是矩陣乘法加法。而這些高維向量均被稱為「張量」,也就是 TPU 的「T(Tensor)」。誰都知道張量運算重要,但老黃知道的最早。他在十幾年前就開始佈局,才會有今天的成功,他的解決方案就是 GPU。

GPU 顧名思義,就是專門處理「圖型」相關的工作,對於全能的處理器,GPU 就是專業的!想到這個你有沒有歷史重演的感覺。多用途的處理器上一次怎麼樣被拋棄的,沒錯,就是 CPU。CPU 因為要做的事太多,是要運算、控制、I/O、管理記憶體,再加上無法平行處理的天生限制,很快在這幾年就在高速運算的潮流中落居下風,無法和專門處理圖型運算等功能的 GPU 相比,這也是你看到英特爾下,輝達上的原因。

NVIDIA 的 GPU 最初是為了圖形渲染而設計的。圖形渲染的特點是每個像素的計算相對獨立,需要同時處理螢幕上數百萬個像素。為此,GPU 發展出了單指令多執行緒(Single Instruction, Multiple Threads, SIMT)架構。

SIMT 架構 GPU 將大量的核心(CUDA Cores)變成串流多處理器(Streaming Multiprocessors, SMs)。控制單元(Control Unit)發出一筆指令(例如「將這個像素的紅色值加 1」),成千上萬個執行緒同時對不同的資料執行這條指令。

GPU 架構相較於 CPU 進步巨大,它大幅增加了計算單元的密度。但 GPU 為了保持「通用性」(處理各種圖形渲染、物理模擬、加密貨幣挖掘以及 AI 計算),仍然保留極複雜的記憶體存取機制與控制邏輯。這也是老黃一直喊 HBM (高頻寬記憶體)的原因。

大家談到 GPU時,通常不會提到它的全稱,應該是 GPGPU,就是「多用途」GPU。張量運算對 GPU 來說,只是它「多用途」的一部分,而多用途這個特點,正是目前 TPU 準備幹掉它的一個致命傷。

當初 GPU 怎麼幹掉 CPU,現在 TPU 就怎麼幹掉 GPU。

TPU 呢?沒錯,它不是一個實際意義上的「處理器」,它只是 ASIC,它只會做一件事,就是張量運算,而且它可以無限向上堆疊。

TPU 的核心設計理念是:如果我們知道這個晶片這輩子只做矩陣乘法,我們能移除多少多餘的元件?

TPU 移除了通用的指令解碼器、分支預測器、亂序執行邏輯以及大量的快取。取而代之的是一個巨大的矩陣乘法單元(Matrix Multiply Unit, MXU),其核心架構稱為「脈動陣列」(Systolic Array)。

由於移除了大量的控制邏輯和快取,TPU 可以將更多的晶片面積用於實際的算術邏輯單元(ALU)。在 CPU 中,控制邏輯佔了 40% 以上面積,GPU 20%,TPU 大約是 5% 以下,這個優勢表現在每瓦性能上。Google 的論文指出,TPU 每瓦性能比同期的 GPU 高出 29 倍(針對特定負載)。雖然新一代 GPU 透過 Tensor Cores 縮小了這一差距,但 TPU 在架構層面上的物理優勢依然存在,特別是在滿載運行時。

很多人這時要反駁我了,咦,老黃自己都說過,AI 晶片雖然是看每瓦電力吐出的 Token 數,但 GPU 可以運行低精度的推理啊,如果算上這個,GPU 在FP44、FP8 的每瓦 Token 數是大於 TPU 的哦!

單顆晶片來看,Google 的 TPU v6e 在 FP16 下算力 926 TFLOPS,GB200 為 5000 TFLOPS。看每瓦效能 TPU 以 2.64 優於 GPU 的 1.85,效率高出約 42%。表面上,TPU 看似更效率更高更划算。但這種比較忽略了實際應用的精度設定。FP16 已非主要推論模式,市場真正的主流是更低精度的 FP4 或 FP8。輝達的 GPU 可支援到 FP4,而 TPU 目前僅支援至 FP8 或 INT8。這一差異在推論效率上產生了反轉:在相同耗電下,輝達系統能產出約 40% 更多的 token。

是這樣嗎?

本來就不能只用「TFLOPS/功耗」去比較 TPU。ASIC 就是專門為模型進行的優化的 包括更高的實際利用率,TPU 幾乎是專為 Transformer 設計的,訓練時算力滿載,而 GPU 的最大算力 kernel、記憶體速度(對,HBM 重要吧!)與架構限制,常常跑不滿。

在更多晶片的場景,TPU 的優勢更加明顯。TPU Pod 互連專門為分散式設計,同步的開銷更低,實際吞吐量在大規模下比 GPU cluster 更線性。看訓練或推論效率時,除了單位電量中 TFLOPS 之外,還要看算力使用率,擴展得更線性,進而在整個模型圖上減少浪費。

這個論戰大家各自有立場,但花錢的主子的選擇是最清楚的。

今天 傳出 Meta 準備使用 Google 的 TPU 晶片,將在明年開始租用。根據 Meta 的支出分佈,2026 年資本支出至少達 1000 億美元,意味著明年在 AI 推理晶片容量上的支出將達 400–500 億美元。

如果 Meta 的400-500億美元原來是給輝達的,明年輝達的財報就難看了!我個人認為輝達的 GPU 本來就溢價,炒作的成份太大,這麼高的毛利建築在一個空中樓閣上本來就有問題。Google TPU 是自己農場養大的,成本、應用、生態系都在完美的閉環中。現在 Anthropic、MidJourney 早就轉投曹營了,再加上 Meta 帶槍投靠,輝達這個大泡泡,還能再吹多久!

改變已經開始了,老黃你怎麼應對這個局?
回复

使用道具 举报

 楼主| 发表于 27-11-2025 09:59 AM 来自手机 | 显示全部楼层
https://www.facebook.com/share/v/1Ddp1jkAGL/

年代:ASIC 是未来的趋势
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

 

ADVERTISEMENT



ADVERTISEMENT



ADVERTISEMENT

ADVERTISEMENT


版权所有 © 1996-2023 Cari Internet Sdn Bhd (483575-W)|IPSERVERONE 提供云主机|广告刊登|关于我们|私隐权|免控|投诉|联络|脸书|佳礼资讯网

GMT+8, 3-12-2025 02:36 AM , Processed in 0.245802 second(s), 24 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表