官术网_书友最值得收藏!

前言

在幾年前,我們“‘蘑菇書’三劍客”(筆者、王琦、楊毅遠)已經在GitHub上發布過線上教程“EasyRL”,填補了強化學習國內相關資料較少的空缺。特此再次衷心感謝李宏毅、周博磊、李科澆3位老師的授權與開源奉獻精神,沒有他們的鼓勵與無私奉獻,就沒有深受廣大強化學習初學者喜愛的“蘑菇書”。受到廣大讀者的鼓勵,我們不斷優化教程,以期幫助讀者更好、更愉快地入門強化學習。

時光荏苒,筆者已在業界深耕多年,對于強化學習實踐有了更加深入的認識,并在理論與實踐的結合方面有了一些心得。與此同時,我們也發現讀者在將理論應用到實踐的過程中似乎遇到了一些困難。首先,很多已經有人工智能知識基礎的讀者只是想用強化學習來做一些其他方面的交叉研究,但由于強化學習理論錯綜復雜,對于這樣的讀者來說很難在短時間內快速把握其重點,并且容易陷入一些與實踐關系不大的小知識點的陷阱中。其次,有一些讀者很難將強化學習中的公式和實際代碼對應起來,例如策略函數的設計等,并且對算法的各種超參數的調整也不知從何處入手。

雖然市面上已經有一些關于強化學習實踐的教程,但是這些教程往往過于偏重實踐,忽視了理論與實踐之間的平衡。此外,相關的實踐也往往局限于一些簡單的實驗和算法,涵蓋的內容不夠全面。鑒于這些現狀,筆者希望讀者對強化學習知識有更深入、全面的了解,這也是本書編寫的初衷。

本書的內容主要基于我們的理論知識與實踐經驗,并融入了一些原創內容,例如針對策略梯度算法的兩種不同的推導版本,以便讓讀者從不同的角度更好地理解相關知識。全書始終貫穿強化學習實踐中的一些核心問題,比如優化值估計的實踐技巧、解決探索與利用的平衡等問題。全書的內容編排合理,例如從傳統強化學習到深度強化學習過渡的內容中,增加對深度學習基礎的總結歸納內容,并對一些應用十分廣泛的強化學習算法,如DQN、DDPG以及PPO等算法進行強調,讀者可有選擇性地閱讀。本書除了給出一些簡單的配套代碼之外,還提供一套“JoyRL”開源框架,以及更多復雜環境實驗示例,想要深入了解的讀者可自行研究。

本書由開源組織Datawhale的成員采用開源協作的方式完成,歷時1年有余,主要參與者包括筆者、王琦和楊毅遠。此外,十分感謝諶蕊(清華大學)、丁立(上海交通大學)、郭事成(安徽工業大學)、孫成超(浙江理工大學)、劉二龍(南京大學)、潘篤驛(西安電子科技大學)、邱雯(日本北見工業大學)、管媛媛(西南交通大學)、王耀晨(南京郵電大學)等同學參與“JoyRL”開源框架的共建,以及林詩穎同學在本書編寫過程中的友情幫助。在本書寫作和出版過程中,人民郵電出版社提供了很多出版的專業意見和支持,在此特向信息技術分社社長陳冀康老師和本書的責任編輯致謝。

由于筆者水平有限,書中難免有疏漏和不妥之處,還望讀者批評指正。

江季  

2024年9月

主站蜘蛛池模板: 曲阳县| 宜宾县| 涡阳县| 安义县| 阜宁县| 灌南县| 涿州市| 波密县| 龙门县| 鄱阳县| 化德县| 读书| 唐河县| 台中县| 双峰县| 调兵山市| 太保市| 郧西县| 丁青县| 富裕县| 邵阳县| 巴林右旗| 巧家县| 绥中县| 阳春市| 双牌县| 且末县| 阿鲁科尔沁旗| 元阳县| 秀山| 漳平市| 大英县| 白城市| 崇义县| 社旗县| 土默特左旗| 武汉市| 康平县| 定兴县| 布尔津县| 体育|