GPU集群的真实成本:不只是每小时的价格
现代GPU的价格令人难以置信。一块Blackwell GPU的价格超过了一辆普通汽车,耗电量甚至超过一个普通家庭。如今,独角兽创业公司拥有成千上万块GPU日夜不停地工作,已经司空见惯。许多基础模型公司在GPU上的投入已经远远超过员工薪资。
我们了解到,多家公司将初始资金的80%以上都投入到了GPU上。创业公司在制定公司财务计划时,现在需要考虑四个重要的支出类别:
- GPU集群
- 代币
- 员工
- 其他所有开支

传统上,在决定从哪里获取集群来解决第一个类别的问题时,公司通常按每小时成本评估新型云服务,重点关注最昂贵的项目:GPU本身。然而,仅关注提供商提供的每GPU小时价格可能会产生误导。实际上,一旦考虑到训练模型或构建推理端点所需的所有因素,两个每GPU小时价格相同的云服务可能会有非常不同的总体拥有成本(TCO)。

诸如停机时间、设置时间、调试时间以及网络和存储所需的性能调优等因素,会显著影响用户每美元投入能完成的有效工作量。CPU计算、网络、存储、编排软件和支持等非GPU支出的额外成本也可能被隐藏而未被考虑。换句话说,看似更便宜的集群在许多情况下最终可能更加昂贵。

来源:SemiAnalysis Cluster TCO计算器

SemiAnalysis ClusterMAX™研究的核心前提是,GPU云提供商之间的集群质量存在显著差异,这些差异对终端用户体验、生产力以及总体拥有成本(TCO)都有重要影响。许多这些因素在硬件规格、参考架构或一次性性能基准中并未体现。不同…

原文链接:https://newsletter.semianalysis.com/p/how-much-do-gpu-clusters-really-cost
关注微信号:智享开源 关注微博:IMCN开源资讯网 ,可及时获取信息
为你推荐


还没有任何评论,你来说两句吧!