
专题:DeepSeek为何能升沉大家AI圈开云官方
炒股就看金麒麟分析师研报,泰斗,专科,实时,全面,助您挖掘后劲主题契机!
新智元报谈
裁剪:桃子 好困
【新智元导读】DeepSeek开源第四天,连更三个技俩。DualPipe、EPLB、以及算计与通讯近似机制的优化并行计策,让大模子试验更快,资本更低,还能保抓顶尖性能。
开源周第4天,DeepSeek放出的是——优化并行计策,一共三个技俩。
值得一提的是,DualPipe是由三个东谈主——Jiashi Li、Chengqi Deng和梁文峰共同研发。
有网友对此默示,这是一个颠覆性的破损。
‘DualPipe和EPLB让大模子的试验更快、更低廉、更可抓续,同期保抓顶尖性能’。
开源仅剩终末一天,驳斥区网友纷繁许诺:未来一定要来个大的。
DualPipe
DualPipe是DeepSeek-V3本事解释中建议的一种更始双向活水线并行算法。
它大约达成前向与后向算计和通讯阶段的豪阔近似,同期有用减少活水线气泡(放心时辰)。
休养决策
上图展示了在8个活水线并行阶段和20个micro-batches情况下,DualPipe在两个方进取的休养示例。
由于反向地方的微批次与前向地方对称,为了简化图示,这里概略了反向地方的batch ID。图中由归拢个玄色边框包围的两个单位格默示同期进行的算计和通讯操作,它们达成了相互近似。
活水线气泡与内存使用相比
图中,代表前向块(forward chunk)的试验时辰,代表完好后向块(full backward chunk)的试验时辰,代表‘权重后向’(backward for weights)块的试验时辰,而&则默示同期试验且相互近似的前向和后向块的试验时辰。
快速初学
使用示举例下:
注重:在实质出产环境中,需要字据模块特质来达成一个定制化的overlapped_forward_backward措施。
大师并行负载平衡器(EPLB)
在使用大师并行(EP)时,不同的大师模块会被分派到不同的GPU上。由于各个大师的算计负载会随面前任务而变化,因此保抓各GPU间负载平衡至关进军。
如DeepSeek-V3论文所述,谈论东谈主员接纳了冗余大师(redundant experts)计策,对高负载大师进行复制。
随后,通过启发式算法将这些复制的大师合理分派到各GPU上,确保算计资源的平衡欺诈。
此外,由于DeepSeek-V3接纳了组内铁心大师路由(group-limited expert routing)机制,谈论团队尽可能将归拢组的大师搁置在归拢节点上,以减少节点间的数据传输支出。
为了便于复现和部署,DeepSeek在eplb.py文献中开源了EP负载平衡算法。该算法大约字据算计的大师负载,算计出平衡的大师复制和搁置决策。
需要阐发的是,大师负载的具体展望措施不在此代码库的盘考范围内,一种常用的措施是接纳历史统计数据的滑动平均值。
算法旨趣
负载平衡算法提供了两种计策,适用于不同场景:
· 脉络负载平衡(Hierarchical Load Balancing)
当办事器节点数目大约整除大师组数目时,谈论东谈主员接纳脉络负载平衡计策,来充分欺诈组内铁心大师路由机制。
最初,他们将大师组均匀分派到各节点,确保节点间负载平衡;然后,在每个节点里面复制大师模子;终末,将复制后的大师打包分派到各个GPU上,达成GPU间的负载平衡。
这种脉络化计策尽头适用于预填充阶段(prefilling stage),此时大师并行界限较小。
· 全局负载平衡(Global Load Balancing)
在其他情况下,谈论东谈主员接纳全局负载平衡计策,不计划大师组的铁心,凯旋在全局范围内复制大师并分派到各个GPU上。这种计策更妥贴解码阶段使用,此时大师并行界限较大。
接口示例
负载平衡器的中枢函数是eplb.rebalance_experts。
底下的代码展示了一个双层混杂大师模子(MoE)的示例,每层包含12个大师。
DeepSeek为每层引入了4个冗余大师,共计16个大师副本被分派到2个算计节点上,每个节点配有4个GPU。
该脉络负载平衡计策产生的成果,展示了如下大师复制与分派决策。
DeepSeek基础轨范中的性能判辨数据
在这里,DeepSeek公开共享来自试验和推理框架的性能判辨数据,旨在匡助社区更长远地默契通讯与算计近似计策以及有关底层达成细节。
这些判辨数据是通过PyTorch Profiler器具取得的。
你不错下载后在Chrome浏览器中窥伺chrome://tracing(或在Edge浏览器中窥伺edge://tracing)凯旋进行可视化稽查。
需要阐发的是,为了便于判辨,谈论东谈主员模拟了一个豪阔平衡的MoE路由计策。
试验经由
试验判辨数据展示了,谈论东谈主员在DualPipe中奈何达成单对前向和后向算计块的近似计策。每个算计块包含4个MoE层。
并行配置与DeepSeek-V3预试验设立保抓一致:接纳EP64、TP1,序列长度为4K。
为简化判辨经由,未包含活水线并行(PP)通讯部分。
推理经由
· 预填充
在预填充阶段,判辨配置接纳EP32和TP1的配置(与DeepSeek V3/R1实质在线部署一致),领导长度设为4K,每GPU批科罚量为16K个token。
谈论东谈主员在预填充阶段使用两个micro-batches来达成算计与all-to-all通讯的近似,同期确保注重力机制的算计负载在两个micro-batches间保抓平衡——这意味着归拢条领导信息可能会被分割到不同micro-batches中科罚。
· 解码
解码阶段的判辨配置接纳EP128、TP1,领导长度4K(与实质在线部署配置尽头接近),每GPU批科罚量为128个央求。
与预填充类似,解码阶段也欺诈两个micro-batches来近似算计和all-to-all通讯。
可是不同的是,解码经由中的全联通通讯不占用GPU流科罚器(SM):RDMA音问发出后,总共GPU流科罚器立即被开释,系统在完成算计后恭候全联通通讯完成。
对于all-to-all通讯达成的更多本事细节,请参考DeepEP文档。
参考辛勤:
https://x.com/deepseek_ai/status/1894931931554558199

海量资讯、精确解读,尽在新浪财经APP
株连裁剪:石秀珍 SF183开云官方