官术网_书友最值得收藏!

1.3.3 探索策略

在強化學習中,探索策略(exploration strategy)是一個非常重要的問題,即如何在探索和利用之間進行權衡。在探索的過程中,智能體會嘗試一些未知的動作,從而可能獲得更多的獎勵,但同時可能會受到較多的懲罰。而在利用的過程中,智能體會選擇已知的動作,從而可能獲得較少的獎勵,但同時可能會受到較少的懲罰。因此,如何在探索和利用之間進行權衡是一個非常重要的問題。目前比較常用的方法有ε-greedy(ε貪心)和上置信界(upper confidence bound,UCB)等。

此外,提高探索效率的目的是避免局部最優(yōu)問題,從而增強智能體的魯棒性。近年來,有研究結(jié)合進化算法來提高探索效率,例如NEAT(neuro evolution of augmenting topologies,增強拓撲的神經(jīng)進化)和PBT(population based training,基于種群的訓練)等算法,當然這些算法在提高探索效率的同時會帶來一定的計算成本。

主站蜘蛛池模板: 噶尔县| 保定市| 思茅市| 延吉市| 乌兰察布市| 获嘉县| 朝阳县| 天津市| 阿坝| 呼图壁县| 确山县| 沈阳市| 龙里县| 泊头市| 东安县| 霍林郭勒市| 左贡县| 大丰市| 贵港市| 栾城县| 苏尼特左旗| 汝城县| 八宿县| 志丹县| 板桥市| 华坪县| 张家口市| 新安县| 天峨县| 张家川| 双鸭山市| 什邡市| 镇远县| 页游| 万全县| 高唐县| 盐源县| 梁山县| 弋阳县| 保靖县| 盘山县|