大模型時(shí)代的基礎(chǔ)架構(gòu):大模型算力中心建設(shè)指南
大模型是近年來(lái)引人注目的熱點(diǎn)之一。大模型蓬勃發(fā)展的基礎(chǔ),是針對(duì)其需求設(shè)計(jì)的算力及基礎(chǔ)架構(gòu)。本書(shū)針對(duì)如何為大模型構(gòu)建基礎(chǔ)架構(gòu)進(jìn)行深入講解,并基于TOGAF方法論,剖析業(yè)界知名案例的設(shè)計(jì)方案。全書(shū)總計(jì)13章。第1章講解AI與大模型時(shí)代對(duì)基礎(chǔ)架構(gòu)的需求;第2章講解軟件程序與專用硬件的結(jié)合,涉及GPU并行運(yùn)算庫(kù)、機(jī)器學(xué)習(xí)程序的開(kāi)發(fā)框架和分布式AI訓(xùn)練;第3章剖析GPU的硬件架構(gòu),涉及GPU的總體設(shè)計(jì)、NvidiaGH100芯片架構(gòu)和擁有其他Hopper架構(gòu)的GPU;第4章講解GPU服務(wù)器的設(shè)計(jì)與實(shí)現(xiàn);第5章講解機(jī)器學(xué)習(xí)所依托的I/O框架體系;第6章講解GPU集群的網(wǎng)絡(luò)設(shè)計(jì)與實(shí)現(xiàn);第7章講解GPU板卡算力調(diào)度技術(shù);第8章講解GPU虛擬化調(diào)度方案;第9章講解GPU集群的網(wǎng)絡(luò)虛擬化設(shè)計(jì)與實(shí)現(xiàn);第10章講解GPU集群的存儲(chǔ)設(shè)計(jì)與實(shí)現(xiàn);第11章講解如何基于云原生技術(shù)為機(jī)器學(xué)習(xí)應(yīng)用設(shè)計(jì)與實(shí)現(xiàn)更好的開(kāi)發(fā)和運(yùn)行平臺(tái);第12章講解基于云平臺(tái)的GPU集群的管理與運(yùn)營(yíng),涉及云運(yùn)維平臺(tái)、云運(yùn)營(yíng)平臺(tái)和云審計(jì)平臺(tái);第13章基于一個(gè)服務(wù)機(jī)器學(xué)習(xí)的GPU計(jì)算平臺(tái)落地案例,展示如何針對(duì)機(jī)器學(xué)習(xí)應(yīng)用進(jìn)行需求分析、設(shè)計(jì)與實(shí)現(xiàn)。無(wú)論是高等院校計(jì)算機(jī)與人工智能等相關(guān)專業(yè)的本科生或研究生,還是對(duì)并行計(jì)算技術(shù)、云計(jì)算技術(shù)、高性能存儲(chǔ)及高性能網(wǎng)絡(luò)技術(shù)感興趣的研究人員或工程技術(shù)人員,都可以參考和閱讀本書(shū)。
·10.1萬(wàn)字