Cerebras —— 请给我更快的Token

当前位置：首页
» 推荐文章 » Cerebras —— 请给我更快的Token

Cerebras —— 请给我更快的Token

自2021年6月Dylan为新闻通讯专门撰写关于Cerebras的文章以来，已经过去了将近5年。他在两天内就发布了4篇文章！这些文章可以轻松阅读，但时代已经变了。

改变的另一个方面是Cerebras的运势。随着快速token技术成为主流，以及与OpenAI达成的750MW计算交易，Cerebras已经准备好接受公众市场的审视。直到6个月前，我们仍然认为晶圆规模引擎（Wafer Scale Engine）尽管有其大胆的创新，但仍存在一些难以掩盖的技术弱点。因此，基于HBM的加速器（如GPU和TPU）仍然广受欢迎。Cerebras的优势（主要是速度）多年来一直被忽视，人们更关注总吞吐量。但现在，随着前沿实验室发布同一模型权重的快速、优先、标准和批处理层级，世界通过他们的钱包揭示了他们对快速token的偏好。这使Cerebras的优势凸显出来，也是OpenAI愿意为Cerebras的计算能力支付数百亿美元的关键原因。需求如此强劲，让每个人都看起来很出色。

今天，在Cerebras即将IPO之际，并且因为我们热爱晶圆技术，我们发布了一篇相当于4篇普通文章长度的文章。在文章中，我们将深入探讨：

快速推理
WSE-3，Cerebras独特的晶圆规模芯片
CS-3，Cerebras的系统及其独特架构
提供物料清单（BOM）成本分析
解释晶圆技术在何时以及如何赢得快速推理的优势
描述晶圆技术的一些局限性，展示权衡取舍

对于付费订阅者，我们还展示了改变公司命运的OAI推理交易的经济性，并分享了我们关于Cerebras在成为新云（neocloud）方面的进展见解（即他们如何在2028年前为OpenAI获得所需的750MW）。此外，我们将讨论Cerebras的未来计划，将晶圆规模光收发器与他们的WSE计算引擎进行混合键合，他们声称这样做纯粹是出于对技术的热爱，因为这对于LLM推理并非必需，但对于HPC（高性能计算）”婴儿潮”工作负载是必需的。这些HPC客户在NVIDIA基本上取消了GPU上的FP64原生硬件后，实际上已被NVIDIA抛弃。