大模型時代的基礎架構:大模型算力中心建設指南
大模型是近年來引人注目的熱點之一。大模型蓬勃發展的基礎,是針對其需求設計的算力及基礎架構。本書針對如何為大模型構建基礎架構進行深入講解,并基于TOGAF方法論,剖析業界知名案例的設計方案。全書總計13章。第1章講解AI與大模型時代對基礎架構的需求;第2章講解軟件程序與專用硬件的結合,涉及GPU并行運算庫、機器學習程序的開發框架和分布式AI訓練;第3章剖析GPU的硬件架構,涉及GPU的總體設計、NvidiaGH100芯片架構和擁有其他Hopper架構的GPU;第4章講解GPU服務器的設計與實現;第5章講解機器學習所依托的I/O框架體系;第6章講解GPU集群的網絡設計與實現;第7章講解GPU板卡算力調度技術;第8章講解GPU虛擬化調度方案;第9章講解GPU集群的網絡虛擬化設計與實現;第10章講解GPU集群的存儲設計與實現;第11章講解如何基于云原生技術為機器學習應用設計與實現更好的開發和運行平臺;第12章講解基于云平臺的GPU集群的管理與運營,涉及云運維平臺、云運營平臺和云審計平臺;第13章基于一個服務機器學習的GPU計算平臺落地案例,展示如何針對機器學習應用進行需求分析、設計與實現。無論是高等院校計算機與人工智能等相關專業的本科生或研究生,還是對并行計算技術、云計算技術、高性能存儲及高性能網絡技術感興趣的研究人員或工程技術人員,都可以參考和閱讀本書。
·10.1萬字