超聚变FusionOne AI单机跑满血DeepSeek，吞吐性能飙升60%_资讯

超聚变FusionOne AI单机跑满血DeepSeek，吞吐性能飙升60%

创始人

2025-03-24 21:03:52

0次

如今，人工智能发展迅猛，大模型更是成为推动AI技术进步的“引擎”。然而，随着模型参数量的激增，算力需求也呈指数级增长，如何高效、低成本地运行大模型成为行业面临的共同挑战。

以DeepSeek R1满血大模型为例，其参数量高达6710亿，由于其采用了前沿的MLA注意力机制、共享专家和路由专家共同组成的混合专家（MoE）架构，在提升推理效能方面成果显著，但是企业在实际应用过程中，对大模型的性价比有着更为极致的追求。

近日，超聚变FusionOne AI大模型一体机通过软硬协同，深度调优，成功打破了H20运行DeepSeek满血大模型的性能天花板。在模拟问题对话场景（上下文序列长度1K/1K）下，仅需1台FusionServer G8600搭载8张H20硬件，即可流畅运行DeepSeek R1满血版，支持1024并发访问数，总吞吐量高达6335 token/s，性能领先业内H20方案60%。其中，TPOT（Time per Output Token）时延相比业内H20方案减少40%，单台FusionOne AI大模型一体机即可支撑数千人规模企业使用，将单机H20运行大模型的性能推向新高度。

软硬协同调优，打破 H20 性能天花板

算力释放，显存最优分配：通过内核优化，提升显存空间利用率20%，KV cache池使用率提升至93%，保障模型参数、过程KV高效运行
数据、模型并行调度：通过DP数据并行、TP模型张量并行技术，调度多卡分布式并行计算，提升token产生的吞吐效率50%，有效提升计算效能
推理任务切片混合调度：Prefill阶段（首token输出阶段任务）长文本切片, 加速初始内容生成速度，同时在每个切片计算过程中，混合调度Decode任务（后续token迭代生成任务）并行运行, 无需串行等待，提高资源利用率，降低TTFT（Time to First Token）和TPOT（Time per Output Token ）。

超聚变FusionOne AI大模型一体机以极致成本、性能跃升的双重突破，大幅降低DeepSeek-R1 671B模型的部署门槛，以普惠形态让更多企业和科研机构能够轻松应用。未来，超聚变将持续加大研发投入，聚焦AI算力优化与应用拓展，加速企业AI应用落地。

*本文图片均来源于网络

上一篇：SLG的天变了！《率土之滨》青春服掀桌：氪金玩法砍光，铜币可抽武将

下一篇：超级堆积木2攻略秘籍：从入门到精通策略解析

超聚变FusionOne AI单机跑满血DeepSeek，吞吐性能飙升60%

相关内容

热门资讯