华为手机如何取消来电语音播报(帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,搞定通算瓶颈)

在今年二月举办的DeepSeek开源周活动中,针对大模型推理过程的并行策略和通信效率的深度优化成为了焦点。近日,华为数学团队推出了一项创新技术——FlashComm,这一技术为解决大模型推理的通信难题提供了全新的解决方案。
FlashComm主要包括三大技术模块:
首先是FlashComm1:针对大模型推理中的AllReduce通信优化技术。该技术将AllReduce通信进行拆解并与后续计算模块进行协同优化,成功提升了推理性能,性能提升幅度达到26%。
其次是FlashComm2:以存换传的通信优化技术。该技术在不改变计算语义的前提下,重构了ReduceScatter和MatMul算子的计算流程,实现了推理速度的整体提升,速度提升33%。
最后是FlashComm3:多流并行技术。该技术充分利用昇腾硬件的多流并发能力,实现了MoE模块的高效并行推理,使得大模型吞吐能力激增30%。
随着大语言模型(LLMs)规模的指数级扩张,其部署形态也随之演变,显卡配置朝着规模化、集约化方向发展。从网络时代的单卡部署,到稠密模型时代的多卡/单节点部署,再到以最近发布的DeepSeek V3/R1模型为代表的混合专家(MoE)模型,大语言模型甚至采用数百卡组成的集群和超节点进行部署。
在大模型推理过程中,模型推理早已不再是“单兵作战”,而是一场高协同的“作战”。在这个过程中,集合通信操作就像是一群工人协作盖房子时传递材料和信息的方式,能让多个计算节点高效配合完成任务。华为团队提出的FlashComm技术正是基于这一思路,通过优化集合通信操作来加速大模型的推理过程。
面对集合通信操作中的一些问题,如全量规约(AllReduce)和全量收集(All-Gather)等,华为团队通过数学手段对其进行优化,实现了通信效率的提升。团队还针对张量并行(TP)、数据并行(DP)和专家并行(EP)等并行策略,通过FlashComm技术实现高效的数据交互和计算,从而加速大模型的推理过程。
随着集群规模和推理并发数的增长,通信面临的压力也在不断变大。在推动应用通算融合技术上,还存在一些问题需要解决。华为团队用数学方法给出了他们的系列性创新解法,并把加速大模型推理提升到了新的高度。
其中,FlashComm1通过对传统AllReduce通信方式的优化,实现了通信效率的提升。FlashComm2则通过调整计算与通信的平衡,实现了在保证计算结果精确性的前提下,降低了通信量。而FlashComm3则通过多流并行技术,打破了计算链条的串行桎梏,进一步提升了大模型的推理速度。
华为团队提出的FlashComm技术为加速大模型推理提供了新的思路和方法。未来,随着大语言模型的进一步发展,华为团队将继续在超大规模EP下的多流并行、权重自动预取、模型自动多流并行等方向进行创新,进一步提升大模型推理的系统性能。他们也将致力于构建一个面向大模型推理的全栈生态体系。
