32开的书有多大尺寸
导读:近日,SGLang、英伟达等机构联合发表了一篇关于深度学习任务并行优化的技术报告。报告中指出,在短短四个月的时间里,他们对名为DeepSeek-R1的程序在H100硬件上的性能进行了大幅优化,取得了令人瞩目的成果。该技术的含金量仍在持续上升。就在最近,Hugging Face的联合创始人和首席科学家Thomas Wolf表示,DeepSeek的出现是开源AI领域的ChatGPT时刻。对于全球AI界来说,这一事件的意义深远。一个由数十人组成的联合团队也在利用最新的SGLang推理优化技术,成功地将DeepSeek-R1在H100上的性能提升了26倍。本篇文章将详细介绍这一过程及其背后的技术原理。
一、技术报告概览
该团队通过使用SGLang的推理优化,成功地将DeepSeek-R1在H100 GPU上的性能进行了优化。这一成果不仅使得DeepSeek的性能达到了与顶尖闭源AI模型相媲美的水平,还对整个AI领域产生了深远的影响。这一成果的实现离不开团队对SGLang的升级和对大规模并行处理技术的深入研究。
二、SGLang的升级和大规模并行处理
为了优化DeepSeek的性能,团队首先对SGLang进行了全面升级,支持了PD分离、大规模EP、DeepEP、DeepGEMM及EPLB等功能。这些新特性使得SGLang能够更好地支持大规模并行处理,从而提高了DeepSeek的推理性能。在此基础上,团队成功地在拥有96块GPU的集群上复现了DeepSeek的推理系统。
三、并行设计和技术优化
为了提高DeepSeek的性能,团队深入探讨了并行设计和技术优化方法。他们针对DeepSeek架构中的关键组件,如注意力层、稠密前馈网络(FFN)、稀疏FFN以及语言模型(LM)的头部,都进行了优化。每个组件都采用了专门设计的并行化策略,以提高可扩展性、内存效率和整体性能。
四、具体技术细节
1. 注意力层:DeepSeek采用了多头潜注意力机制(MLA),团队通过实现DP attention来优化这一机制,目的是消除跨设备的KV缓存冗余,从而降低成本。
2. 稠密FFN:即便DeepSeek-V3仅使用了三个稠密FFN层,其计算过程仍然可能显著增加峰值内存占用。团队选择采用数据并行(DP)策略来解决这个问题。与传统的张量并行(TP)相比,DP策略提供了更强的可扩展性和优化的内存效率。并且在实际应用中降低了通信开销。
3. 稀疏FFN和LM头:在DeepSeek-V3的MoE架构中,稀疏FFN和LM头也面临内存瓶颈的问题。团队通过专家并行(EP)策略和PD分离技术来解决这一问题。PD分离技术实现了预填充和解码阶段的交错执行,从而提高了GPU资源的利用率。同时他们还集成了一系列优化的通信内核来提高性能。
五、评估结果和未来工作
为了评估优化效果,团队在包含多个节点的集群上进行了性能测试。结果显示,与DeepSeek的官方数据相比,优化后的系统在某些配置下实现了更高的吞吐量。仍然存在一些局限性,如延迟优化和序列长度约束等。未来工作需要进一步优化这些问题,并扩展支持更长的序列以满足特定应用的需求。同时还需要集成多token预测(MTP)等技术来提高性能并满足实时场景的需求。此外他们还将继续探索新的优化方法和技术以提高DeepSeek的性能和可扩展性本文详细介绍了利用SGLang推理优化技术提升DeepSeek-R1在H100上性能的整个过程及其背后的技术原理。通过升级SGLang、采用大规模并行处理技术和深入研究并行设计和技术优化方法他们成功地提高了DeepSeek的性能并使其达到了与顶尖闭源AI模型相媲美的水平。未来他们将继续探索新的优化方法和技术以满足不断增长的需求并推动AI领域的发展。专家并行负载均衡分布策略解析:在此次研究中,我们采用了专家并行负载均衡器(EPLB)的相同分布数据进行实验。虽然这些实验数据能够反映一定的负载均衡情况,但并不能完全代表真实场景中可能出现的各种数据变动情况。我们还需要进一步探索当数据分布出现偏移时,EPLB的性能表现如何。
关于灵活的张量并行规模研究:对于DeepSeek-V3来说,尽管其在稠密FFN情况下采用较小的内存最优张量并行(TP)规模,但这种规模仍大于1。当前SGLang只支持纯粹的TP或动态并行化(DP),这在一定程度上限制了其内存使用效率。为了提升性能,我们需要进一步开发更加灵活的TP选项以适应不同的需求。
Blackwell架构支持进展:当前我们的产品主要支持NVIDIA Hopper架构,但我们的团队正在积极努力将兼容性扩展至下一代Blackwell架构。这是我们不断努力改进、适应新技术发展的一个重要体现。