分布式機(jī)器學(xué)習(xí):系統(tǒng)、工程與實(shí)戰(zhàn)
本書主要講解分布式機(jī)器學(xué)習(xí)算法和開源框架,讀者既可以從宏觀的設(shè)計(jì)上了解分布式機(jī)器學(xué)習(xí)的概念和理論,也可以深入核心技術(shù)的細(xì)節(jié)設(shè)計(jì)中,對(duì)分布式機(jī)器學(xué)習(xí)形成深刻而直觀的認(rèn)識(shí),做到學(xué)以致用。本書共分為5篇,第1篇是分布式基礎(chǔ),首先介紹了分布式機(jī)器學(xué)習(xí)的概念、基礎(chǔ)設(shè)施,以及機(jī)器學(xué)習(xí)并行化技術(shù)、框架和軟件系統(tǒng),然后對(duì)集合通信和參數(shù)服務(wù)器PS-Lite進(jìn)行了介紹。第2篇是數(shù)據(jù)并行,以PyTorch和Horovod為主對(duì)數(shù)據(jù)并行進(jìn)行分析,讀者可以了解在具體工程領(lǐng)域內(nèi)實(shí)現(xiàn)數(shù)據(jù)并行有哪些挑戰(zhàn)和解決方案。第3篇是流水線并行,講解了除模型劃分之外,還通過引入額外的流水線來提高效率,以GPipe/PyTorch/PipeDream為例進(jìn)行分析。第4篇是模型并行,首先對(duì)NVIDIAMegatron進(jìn)行分析,講解如何進(jìn)行層內(nèi)分割模型并行,然后講解PyTorch如何支持模型并行,最后介紹分布式優(yōu)化器。第5篇是TensorFlow分布式,前面幾篇以PyTorch為綱,結(jié)合其他框架/庫來穿插完成,本篇帶領(lǐng)大家進(jìn)入TensorFlow分布式領(lǐng)域。
·21.9萬字