DeepSeekV4 1.6T模型43天性能进化：100倍提升解析 | Teach

当前位置：首页
» 推荐文章 » DeepSeekV4 1.6T模型43天性能进化：100倍提升解析

DeepSeekV4 1.6T模型43天性能进化：100倍提升解析

Markdo 暂无评论阅读 349 次

DeepSeekV4 1.6T模型43天性能进化：100倍提升解析

模型发布与性能追踪背景

DeepSeek v4的发布为开源AI社区注入了新活力，这款由中国实验室推出的1.6T参数大模型，其性能演进速度对整个生态至关重要。开源工程团队InferenceX从模型发布首日（Day 0）起，便连续多日通宵测试，记录下Day 0、Day 1、Day 2直至Day 43的推理性能数据。本文将重点展示Day 0的表现，并解读后续数周内实现的显著优化，同时分析DeepSeek v4的架构设计如何与华为昇腾推理硬件协同。

Day 0推理性能：华为Ascend 950DT首秀

在本文第二节，我们针对DeepSeek v4在华为Ascend 950DT上的Day 0推理进行了全面分析。这是业界首次公开950DT运行该模型的推理轨迹，我们详细拆解了计算与通信的重叠机制，以及华为为优化性能所采用的多计算流方案。

计算-通信重叠：通过精细化调度，减少空闲等待时间
多计算流：利用华为硬件的并行特性，提升吞吐
Day 0基线：为后续迭代提供对比基准

26天实现100倍性能飞跃

InferenceX的核心理念是记录每个SKU在不同框架（vLLM、SGLang等）下的真实性能，无论初始表现如何。从Day 0到Day 26，团队通过开源镜像和配置不断调优，视频演示展示了非MTP配置下性能的迭代式提升。这背后是数千小时的工程投入，优化成果已合并进SGLang/vLLM主分支。

Day 0 → Day 26：推理速度提升100倍（100x performance improvement）
MTP配置：同步支持，从Day 0起即可在相关平台查看
开源协作：所有优化公开，社区可直接复现

Day 43的全面性能图谱

截至Day 43，DeepSeek v4在多种硬件平台上的表现均已记录，包括华为、GB300 NVL72、MI355X、B200等。百万Token成本（Cost per Million Tokens）等关键指标也随优化持续下降。下图清晰展示了不同SKU的吞吐与延迟变化，凸显了持续工程迭代的价值。

华为系列：950DT的推理轨迹详细分析
GB300 NVL72：高性能集群下的扩展表现
MI355X与B200：厂商特定优化对比

以上数据与视频演示均源自InferenceX公开报告，更多细节可访问原文及附属资源。

关注微信号：智享开源 ，及时了解更新信息。

InferenceX v2: NVIDIA Blackwell Vs AMD vs Hopper - Formerly InferenceMAX

原文链接：https://newsletter.semianalysis.com/p/deepseekv4-16t-day-0-to-day-43-performance

0 0

评论列表

还没有任何评论，你来说两句吧！

发表评论

你必须登录才能发表评论.

为你推荐

英特尔股权融资正当时

宇树科技：全球机器人霸主崛起进行时

太空数据中心：机遇与现实的鸿沟

AI“暗产出”：看不见的经济贡献与显性成本

乐趣驱动：编译器漏洞的意外猎获

Anthropic与Bedrock双引擎，推高AWS利润率，对手望尘莫及

800V直流电革命深度解析（上）

英特尔股权融资正当时

英特尔股权融资正当时

宇树科技：全球机器人霸主崛起进行时

宇树科技：全球机器人霸主崛起进行时

太空数据中心：机遇与现实的鸿沟

太空数据中心：机遇与现实的鸿沟

AI“暗产出”：看不见的经济贡献与显性成本

AI“暗产出”：看不见的经济贡献与显性成本

乐趣驱动：编译器漏洞的意外猎获

乐趣驱动：编译器漏洞的意外猎获

Anthropic与Bedrock双引擎，推高AWS利润率，对手望尘莫及

Anthropic与Bedrock双引擎，推高AWS利润率，对手望尘莫及

Markdo Ta的个人站点

Markdo发布文章26篇

扫码微信，或微信端搜“智享开源”

近期文章

近期评论

chinacnd 发表在亚马逊AI复苏：AWS与Anthropic的多吉瓦特Trainium扩展

热门文章

亚马逊AI复苏：AWS与Anthropic的多吉瓦特Trainium扩展 1,037 人阅

华为Ascend芯片生产扩张：HBM成为瓶颈 1,021 人阅

2026 ISSCC大会亮点：HBM4突破、LPDDR6登场，NVIDIA等巨头技术解析 944 人阅

H100与GB200 NVL72训练基准对比：功耗、总拥有成本和可靠性分析 823 人阅

又一大飞跃：Rubin CPX 专用加速器与机架 767 人阅