DeepSeekV4 1.6T模型43天性能进化:100倍提升解析

DeepSeekV4 1.6T模型43天性能进化:100倍提升解析

模型发布与性能追踪背景

DeepSeek v4的发布为开源AI社区注入了新活力,这款由中国实验室推出的1.6T参数大模型,其性能演进速度对整个生态至关重要。开源工程团队InferenceX从模型发布首日(Day 0)起,便连续多日通宵测试,记录下Day 0、Day 1、Day 2直至Day 43的推理性能数据。本文将重点展示Day 0的表现,并解读后续数周内实现的显著优化,同时分析DeepSeek v4的架构设计如何与华为昇腾推理硬件协同。

Day 0推理性能:华为Ascend 950DT首秀

在本文第二节,我们针对DeepSeek v4在华为Ascend 950DT上的Day 0推理进行了全面分析。这是业界首次公开950DT运行该模型的推理轨迹,我们详细拆解了计算与通信的重叠机制,以及华为为优化性能所采用的多计算流方案。

  • 计算-通信重叠:通过精细化调度,减少空闲等待时间
  • 多计算流:利用华为硬件的并行特性,提升吞吐
  • Day 0基线:为后续迭代提供对比基准

26天实现100倍性能飞跃

InferenceX的核心理念是记录每个SKU在不同框架(vLLM、SGLang等)下的真实性能,无论初始表现如何。从Day 0到Day 26,团队通过开源镜像和配置不断调优,视频演示展示了非MTP配置下性能的迭代式提升。这背后是数千小时的工程投入,优化成果已合并进SGLang/vLLM主分支。

  • Day 0 → Day 26:推理速度提升100倍(100x performance improvement)
  • MTP配置:同步支持,从Day 0起即可在相关平台查看
  • 开源协作:所有优化公开,社区可直接复现

Day 43的全面性能图谱

截至Day 43,DeepSeek v4在多种硬件平台上的表现均已记录,包括华为、GB300 NVL72、MI355X、B200等。百万Token成本(Cost per Million Tokens)等关键指标也随优化持续下降。下图清晰展示了不同SKU的吞吐与延迟变化,凸显了持续工程迭代的价值。

  • 华为系列:950DT的推理轨迹详细分析
  • GB300 NVL72:高性能集群下的扩展表现
  • MI355X与B200:厂商特定优化对比

以上数据与视频演示均源自InferenceX公开报告,更多细节可访问原文及附属资源。


关注微信号:智享开源 ,及时了解更新信息。

InferenceX v2: NVIDIA Blackwell Vs AMD vs Hopper - Formerly InferenceMAX

原文链接:https://newsletter.semianalysis.com/p/deepseekv4-16t-day-0-to-day-43-performance

评论列表
 
 
发表评论

你必须 登录 才能发表评论.

为你推荐