北京时间 2025 年 6 月 28 日,路透社报道,OpenAI 已开始租用谷歌的 TPU 为其 ChatGPT 及其他 AI 产品提供算力支持。此举标志着作为英伟达 GPU 长期以来的最大采购商之一的 OpenAI,也开始在其 AI 大模型运算中实质性地大规模使用非英伟达 GPU 算力。
早在去年 6 月,OpenAI 就传出正在积极从谷歌 TPU 团队招募顶尖研发人才,自研 AI 专用芯片。而除OpenAI 外,苹果、Anthropic、Safe Superintelligence、Cohere 等公司也一直租用谷歌云的 TPU 用于 AI 大模型训练及推理。北美 AI 巨头公司们的战略转向凸显了 AI 行业更广泛的变革趋势:领先的大模型开发商都在积极探索英伟达 GPU 之外的替代方案,寻求基础设施多元化,拥抱以 TPU 为代表的 AI 专用芯片的新架构方向。
OpenAI 转向谷歌 TPU 的三重动因
OpenAI 是当下 AI 大模型浪潮的引爆者和代表者。长期以来,OpenAI 使用英伟达 GPU 进行 ChatGPT 模型训练和推理工作负载(即让已训练好的模型可以依据用户需求实时生成预测),OpenAI 既是英伟达 GPU 最早被用于 AI 计算场景的天使客户之一,也是英伟达GPU的长期最大采购商之一。
然而,随着大模型计算需求和复杂度的指数级增长,传统 GPU 架构芯片在用于大模型训练时的成本高、算力利用率低、能耗大的局限日益凸显。不断上涨的 GPU 计算成本和供应限制,促使 OpenAI 探索替代性 AI 芯片方案。通过接入谷歌云对外开放的TPU资源(早年仅供谷歌内部使用),OpenAI 得以利用专为张量计算优化的专用芯片,有望降低单次模型计算成本,并获得独特的性能表现。
OpenAI 的这一决策源于三方面因素的共同作用:
· 成本效益: TPU 专为深度学习的核心——大规模矩阵与张量运算而打造。相较于通用 GPU,其单位功耗吞吐量高,片上内存层级设计激进,通常能为训练和推理实现更低的总体成本。
· 供应链韧性: 算力供应商多元化可降低风险,避免因英伟达面临生产压力、分配延迟、其他行业需求激增而导致的瓶颈,确保其研究实验和大规模部署所需算力可以不间断。
· 软件生态集成:谷歌 TPU 成熟的全栈软件生态——包括与 XLA 编译器紧密耦合的 TensorFlow 框架、TPU 专用运行时、性能分析工具以及谷歌云上的托管服务,可以极大简化大型 AI 应用的模型开发、调优与部署流程,显著降低工程负担,缩短产品上线周期。
TPU 芯片:为 AI/ML 而生的架构
GPU 最初设计用于图形处理,尤其是实时渲染和图像处理,因此对其中体面结构的矩阵和向量运算做了专门优化,后来逐渐发展成为通用计算设备。GPU 具有大量结构较为简单的并行处理单元,适合处理高度并行的任务,如图形渲染和科学计算,因此被广泛应用于计算机图形学、游戏开发、视频编码/解码、深度学习训练和推理。
TPU 是谷歌专为加速机器学习和深度学习任务而设计的专用芯片,特别是针对深度学习模型的训练和推理。TPU 针对张量运算进行了高度优化,单个的脉动阵列架构吞吐量和处理效率相较 GPU 有了更大提升,特别适合于处理矩阵乘法等常见于神经网络的操作,主要用于机器学习和深度学习模型的训练和推理,特别是使用 TensorFlow 框架的任务。
相较于传统 GPU 架构,TPU 设计具有多项优势:
· 紧密集成的内存与计算单元:每个 TPU 核心集成了大容量、高带宽的片上内存,并与矩阵乘法单元紧密耦合,显著降低了数据移动延迟和功耗。
· 高效推理:这种紧密集成使得 TPU 能在更低能耗下实现持续的高吞吐量推理,这对于日处理数百万请求的推理工作负载至关重要。
· 优化的集群互联:TPU 集群配备了精简高效的互联结构,专为分布式模型训练固有的集体通信模式优化,相较于传统的 GPU 加速集群,可带来更优的扩展性和资源利用效率。
AI 算力硬件竞争的关键转折
OpenAI 采用谷歌 TPU,打破了英伟达 GPU 在 AI 算力基础设施领域霸主地位不可撼动的观念。长期占据主导地位的英伟达,如今面临着来自作为主要终端用户的 AI 大模型提供商们寻求算力利用率、成本控制与供应灵活性替代方案的真实压力。谷歌云则赢得了 OpenAI 这一标杆客户,进一步印证了其观点:在特定 AI 工作负载上,TPU 性能可媲美甚至超越 GPU。
与此同时,OpenAI 的这一举措是 AI 硬件行业多元化浪潮的一部分,已有越来越多的世界顶尖科技公司在积极研发自己的 TPU 或类 TPU 架构的 AI 专用芯片,并已得到了众多领先 AI 大模型企业的广泛采用:
· 早在 2019 年,英特尔就收购了来自以色列的 AI 芯片制造商 Habana Labs,并在2024年 4 月推出了专攻深度学习神经网络推理的类 TPU 芯片 Gaudi 3;预计2025 年初,IBM Cloud 将率先部署英特尔 Gaudi 3 AI 加速器;
· 2023 年 7 月的 xAI 会议上,特斯拉以及 X的 CEO 马斯克公开宣布了特斯拉正在自研芯片且一定不会将其称为 GPU,暗示着特斯拉可能正在开发一种与传统 GPU 不同的芯片架构,以满足特斯拉的需求;
· 2023 年 11 月,微软在其全球技术大会 Ignite 上宣布推出专为 Azure 云服务和 AI 工作负载设计的 ASIC 芯片 Maia 100,预计 2026 年正式发布;
· 2023 年11月底,AWS 在其“AWS re:Invent 2023”大会发布了为生成式 AI 和机器学习训练设计的云端 AI 算力芯片 Trainium 2;2024 年底,AWS 与 Anthropic 官宣共同打造名为 Project Rainier 的 EC2 UltraCluster,将使用数十万片 Trainium2 芯片;
· 2024 年 7 月 30 日,苹果公司发布了研究论文表示,Apple使用了谷歌的2048 片 TPUv5p 芯片及 8192 片 TPUv4 芯片——而非英伟达的 GPU 芯片,来训练其人工智能系统“苹果智能”中的 AI 模型 Apple Foundation Model;
······
北美人工智能和半导体圈正在发生的AI算力硬件的转向,AI芯片市场也进入了更具竞争性的新阶段。
中昊芯英国产全自研 TPU AI芯片公司
中昊芯英作为国内唯一一家掌握 TPU 架构AI 专用芯片核心技术并实现全自研 TPU 芯片量产的公司,核心创始团队组建于 2018 年,其创始人及 CEO 杨龚轶凡曾作为谷歌 TPU 芯片核心研发者,深度参与过 TPU v2/3/4 的设计与研发工作。继 Apple 之后,OpenAI 对 TPU 的选择,再一次有力验证了当下中昊芯英所坚持走的TPU技术路线。
TPU 为 AI 大模型而生的天然优势架构,使其在面向 AI 计算场景时,在同等生产制程下相较于 GPU 可以拥有 3-5 倍的性能提升。以中昊芯英历时近五年全自研的国内首枚已量产 TPU AI 芯片“刹那#174;”为例,“刹那#174;”在处理大规模 AI 模型运算时与英伟达当代的先进芯片相比,计算性能可以超越其近 1.5 倍,在完成相同训练任务量时的能耗降低 30%,将价格、算力和能耗综合测算,“刹那#174;”的单位算力成本仅为其 42%。
OpenAI 拥抱谷歌TPU也许并不意味着英伟达 GPU 时代的终结,但它清晰地宣告了以 TPU 主导的AI专用算力基础设施的时代已然到来。成本压力、供应链波动以及模型规模的持续膨胀,必将使得效率因素比传统供应商优势更重要。在这种环境下,专用张量处理器——无论是来自谷歌、AWS 这样的科技巨头,还是中昊芯英、Cerebras、Groq 这样的新兴企业——将塑造大规模 AI 的下一篇章。
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。