深度机器学习以其强大的数学统计能力,在众多领域的不同任务中显著超越了传统方法,从而广泛应用于我们生活生产的各个方面。除了有赖于模型设计的不断发展之外,这一切进步要着重归功于背后起支撑作用的巨大计算力。正如第1章中所述,在模型和数据不断增长的背景下,单设备的存储和计算能力逐渐无法满足这样的需求。 因此,分布式计算也从传统的高性能计算和大数据计算领域,扩展到深度学习的助力上。
图6-0-1: 分布式机器学习训练与算法内容结构如上图,本章将会首先简要介绍分布式深度学习计算出现的因由以及相关的并行性理论。 之后我们从算法方面展示不同的分布式策略以及之间的比较。 同样的分布式算法可能对应不同的同步方式,具体会在深度学习并行训练同步方式中进行讲述与讨论。 承载算法和通信方式的是分布式训练系统,这里我们会介绍目前流行的训练系统和使用方式。 综上技术,我们在本章中会展示现今技术如何利用分布式计算有效地组织多个计算和通信设备,提供高效的计算能力,从而满足日益增长的深度学习模型应用需求。
本章包含以下内容: