Abstract
本申请属于计算机技术领域,提供了一种分布式深度学习方法、装置、参数服务器及主工作节点。方法包括接收多个数据运算组中主工作节点发送的梯度向量集;其中,每个主工作节点发送的梯度向量集包括该主工作节点所在数据运算组中所有工作节点的梯度向量;根据多个梯度向量集对预设深度学习模型的全局模型参数进行更新;将更新后的全局模型参数下发至各主工作节点,以使每个主工作节点控制其所在数据运算组中所有工作节点根据更新后的全局模型参数进行本地的模型训练。本申请实施例的分布式深度学习方法以数据运算组为粒度进行数据以及任务的调度,减少了每次迭代中与参数服务器同步的数据量,降低通信开销且提高了各工作节点的资源利用率。
Original language | Chinese (Simplified) |
---|---|
Patent number | ZL2019113525759 |
Filing date | 25/12/19 |
Publication status | Published - 2024 |