官术网_书友最值得收藏!

強(qiáng)化學(xué)習(xí):原理與Python實戰(zhàn)
會員

本書從原理和實戰(zhàn)兩個方面介紹了強(qiáng)化學(xué)習(xí)。原理方面,深入介紹了主流強(qiáng)化學(xué)習(xí)理論和算法,覆蓋資格跡等經(jīng)典算法和MuZero等深度強(qiáng)化學(xué)習(xí)算法;實戰(zhàn)方面,每章都配套了編程案例,以方便讀者學(xué)習(xí)。全書從邏輯上分為三部分。第1章:從零開始介紹強(qiáng)化學(xué)習(xí)的背景知識,介紹環(huán)境庫Gym的使用。第2~15章:基于折扣獎勵離散時間Markov決策過程模型,介紹強(qiáng)化學(xué)習(xí)的主干理論和常見算法。采用數(shù)學(xué)語言推導(dǎo)強(qiáng)化學(xué)習(xí)的基礎(chǔ)理論,進(jìn)而在理論的基礎(chǔ)上講解算法,并為算法提供配套代碼實現(xiàn)。基礎(chǔ)理論的講解突出主干部分,算法講解全面覆蓋主流的強(qiáng)化學(xué)習(xí)算法,包括經(jīng)典的非深度強(qiáng)化學(xué)習(xí)算法和近年流行的強(qiáng)化學(xué)習(xí)算法。Python實現(xiàn)和算法講解一一對應(yīng),還給出了深度強(qiáng)化學(xué)習(xí)算法的TensorFlow和PyTorch對照實現(xiàn)。第16章:介紹其他強(qiáng)化學(xué)習(xí)模型,包括平均獎勵模型、連續(xù)時間模型、非齊次模型、半Markov模型、部分可觀測模型等,以便更好了解強(qiáng)化學(xué)習(xí)研究的全貌。

肖智清 ·人工智能 ·17.2萬字

QQ閱讀手機(jī)版

主站蜘蛛池模板: 山阳县| 涟水县| 深水埗区| 比如县| 开阳县| 永川市| 花垣县| 宿松县| 酉阳| 诸城市| 高雄市| 明光市| 临清市| 焉耆| 永州市| 宽甸| 会理县| 伊金霍洛旗| 崇州市| 错那县| 通榆县| 金溪县| 平南县| 曲沃县| 绥宁县| 达拉特旗| 天长市| 泽州县| 常熟市| 开化县| 浦江县| 徐水县| 石林| 乃东县| 青田县| 通州区| 商南县| 涪陵区| 仙桃市| 准格尔旗| 浦东新区|