大模型時代的基礎(chǔ)架構(gòu):大模型算力中心建設(shè)指南
大模型是近年來引人注目的熱點之一。大模型蓬勃發(fā)展的基礎(chǔ),是針對其需求設(shè)計的算力及基礎(chǔ)架構(gòu)。本書針對如何為大模型構(gòu)建基礎(chǔ)架構(gòu)進(jìn)行深入講解,并基于TOGAF方法論,剖析業(yè)界知名案例的設(shè)計方案。全書總計13章。第1章講解AI與大模型時代對基礎(chǔ)架構(gòu)的需求;第2章講解軟件程序與專用硬件的結(jié)合,涉及GPU并行運算庫、機器學(xué)習(xí)程序的開發(fā)框架和分布式AI訓(xùn)練;第3章剖析GPU的硬件架構(gòu),涉及GPU的總體設(shè)計、NvidiaGH100芯片架構(gòu)和擁有其他Hopper架構(gòu)的GPU;第4章講解GPU服務(wù)器的設(shè)計與實現(xiàn);第5章講解機器學(xué)習(xí)所依托的I/O框架體系;第6章講解GPU集群的網(wǎng)絡(luò)設(shè)計與實現(xiàn);第7章講解GPU板卡算力調(diào)度技術(shù);第8章講解GPU虛擬化調(diào)度方案;第9章講解GPU集群的網(wǎng)絡(luò)虛擬化設(shè)計與實現(xiàn);第10章講解GPU集群的存儲設(shè)計與實現(xiàn);第11章講解如何基于云原生技術(shù)為機器學(xué)習(xí)應(yīng)用設(shè)計與實現(xiàn)更好的開發(fā)和運行平臺;第12章講解基于云平臺的GPU集群的管理與運營,涉及云運維平臺、云運營平臺和云審計平臺;第13章基于一個服務(wù)機器學(xué)習(xí)的GPU計算平臺落地案例,展示如何針對機器學(xué)習(xí)應(yīng)用進(jìn)行需求分析、設(shè)計與實現(xiàn)。無論是高等院校計算機與人工智能等相關(guān)專業(yè)的本科生或研究生,還是對并行計算技術(shù)、云計算技術(shù)、高性能存儲及高性能網(wǎng)絡(luò)技術(shù)感興趣的研究人員或工程技術(shù)人員,都可以參考和閱讀本書。
·10.1萬字