官术网_书友最值得收藏!

2.1.2 間接通信

間接通信的定義是通過改變世界環境而隱含地將信息從一個智能體傳遞到另一個智能體[1],即智能體的行為或狀態首先影響外部環境,然后環境的改變會影響其他智能體的行為或狀態,智能體只通過本身的傳感器來獲取周圍環境信息來實現群體間的協作。自然界有很多類似的例子,如將腳印留在雪中,留下一小塊面包屑以便找到回家的路,以及其他在環境中放置物品來進行提示等。

許多針對間接通信的研究從社交昆蟲使用信息素來標記路徑中汲取了靈感。這里,信息素是化合物,其存在和濃度可以被同伴感知,盡管可能會擴散和蒸發,但仍可以在環境中持續很長時間。使用信息素來實現間接通信,可以在沒有集中化的情況下快速適應不斷變化的環境信息。從某種意義上說,信息素沉積物可能被視為所有智能體共享的大型黑板或狀態效用表格,但不同的是信息素只能在局部檢測到,智能體只讀取或改變自身在環境中某點的信息素濃度。

1.共識主動性(Stigmergy)

共識主動性起初是由法國昆蟲學家Pierre-Paul Grassé提出的概念,用來解釋沒有直接通信且智力非常有限的昆蟲為何可以協作處理復雜的任務。共識主動性[7,9-12]啟發自蟻群協同機制,蟻群尋找食物的過程中會分泌信息素遺留在經過的路徑上,其他的螞蟻會感知到信息素,向信息素濃度高的位置移動,最終到達正確的目標位置。若將智能體視作螞蟻個體,它處在充滿信息素的特定空間內,接收來自環境的狀態輸入并做出動作決策。移動后的智能體產生新的信息素,這會影響原有環境中的信息素,更新后的環境會將新的狀態輸入給智能體,從而構成了一個閉環。

共識主動性的概念表明單個智能體可以通過共享環境間接通信,而當單個智能體造成環境改變時,其他智能體也會響應這種改變,并做出相應的變動,實現相互間的信息交互和彼此間的自主協調。由于共識主動性可以實現復雜、協調的活動,而無須智能體之間的直接通信,也無須集中控制調控,因此隨著個體數目的增加,通信開銷的增幅較小。鑒于此,基于共識主動性的間接通信方式可用于在不可預測的環境中構建穩健可靠的系統。

作為對共享環境進行局部修改而交互、協調的一種間接介導的機制,共識主動性通常由媒介(Medium)、動作(Action)、狀態(Condition)和痕跡(Trace)4部分組成,它們共同構成與周圍環境之間的反饋回路,如圖2-2所示。

? 媒介。媒介在多智能體協作中起著信息聚合器的作用。由于媒介的存在,智能體和它們周圍的環境可以建立高效的共識主動性交互,從而使得環境中分散的智能體能與其他智能體間接通信。有時,媒介會被認為和環境等效,重新將媒介定義為所有智能體都可以控制和可感知的那部分環境[13],這是確保不同智能體可以通過媒介相互作用的必要條件。

? 動作。動作是一種導致環境狀態發生變化的因果過程,具有前因以及隨之而來的效果。在人工智能中使用的簡單的基于智能體的模型中,前因通常為狀態,動作則指定該狀態的后續轉換。

? 狀態。指定動作下的環境狀態。

? 痕跡。智能體在媒介中留下痕跡作為動作導致環境變化的指示,不同的智能體在媒介中留下的痕跡會擴散并且以自發的方式進一步融合。然后這些痕跡的變化模式就被視作其他智能體后續動作的相互影響。痕跡可以有不同表示,比如化學物質(如自然界中的信息素)、人工數字信息素(表示有關系統的信息,通過外部環境中的存儲設備存儲)、物理標記(如2D條形碼、射頻識別標簽、顏色標簽)等。

圖2-2 共識主動性學習機制

具有共識主動性的智能體根據局部狀態選擇動作后會在環境中留下痕跡,以影響其他智能體的狀態。媒介是充滿痕跡的指定空間,如數字信息素地圖,響應幅度取決于具有共識主動性智能體之間的距離x和痕跡在媒介中的強度。

許多的研究都是基于信息素/數字信息素實現的,其動態特性是:

? 聚集:同一區域內的信息素可以線性疊加;

? 擴散:智能體釋放的信息素有殘留后會以一定擴散率向周圍區域擴散;

? 揮發:智能體占據位置上的信息素會以一定衰減率減少。

群體智能中模仿自然界蟻群覓食行為的模擬進化算法——蟻群優化算法(Ant Colony Optimization, ACO)[14-15]是一類元啟發式搜索算法,它通過共識主動性這種間接通信方式來彼此協作,具有較強的可靠性、穩健性和全局搜索能力。螞蟻覓食過程中在其所經過的路徑上留下信息素,在運動過程中感受到信息素的存在及其強度,以此指導自己的運動方向。大批螞蟻組成的蟻群行為表現出一種信息的正反饋現象,即某條路上走過的螞蟻越多,后來者選擇該路徑的概率就越大。然后螞蟻用自己的信息素強化選定的路徑。信息素會因揮發而減少,螞蟻朝著信息素濃度高的方向前進。蟻群通過這種信息交換方式與互相協作找到蟻穴到食物源的最短路徑,該算法可以用來求解各種與組合優化路徑相關的組合優化問題,例如在旅行商問題的求解上表現出很強的優越性。

2.共識主動性應用舉例

? 通信網絡自適應路由:路由是整個網絡控制系統的核心,為有線網絡開發的群體智能路由算法可以在沒有全局信息的通信網絡中找到近似最優的路由。

例2.1.7 Ant-Based Control(ABC)算法[16]使用螞蟻作為探索智能體,遍歷網絡節點并更新路由指標(信息素)來實現智能體間接通信。ABC算法綜合考慮路線的長度和沿線的擁擠程度來選擇路由,兩種路由任務分別是進行概率決策的探索螞蟻和做出確定性決策的實際調用(選擇目的地對應列中信息素最多的鏈路)。每個源節點S都會發出許多探索螞蟻,這些螞蟻都朝著隨機選擇的目的地D前進,到達D時從網絡中刪除。網絡結構及節點路由表如圖2-3所示。在節點路由表中,行包括所有鄰節點,列包括所有可能的目的地,每個條目都對應于特定鄰節點指向特定目的地的鏈路上的信息素量,這些信息素量在每一列中歸一化,可以作為選擇最佳鏈路的概率。

圖2-3 網絡結構及節點S的路由表

由于網絡鏈接是雙向的,探索螞蟻在途中的每個節點(如節點C)處更新C處路由表中與源節點S對應的條目。具體來說,路由表中對應于螞蟻剛剛出現過的節點信息素量的概率根據公式更新,該節點路由表中的其他條目根據降低。基于經驗值文獻[16]給出,其中age是螞蟻自源節點以來所經過的時間步數,這使得系統對那些沿著較短的路徑移動的螞蟻有更強烈的響應。探索螞蟻通過生成一個隨機數來選擇下一個節點,并根據它們在路由表中的概率來選擇一條鏈路。螞蟻和呼叫都在同一個隊列中行進,呼叫以路由表中目的地對應列中的最高概率對鏈路做出確定性的選擇,但不會留下任何信息素。呼叫阻塞的節點在時間步數上給探索螞蟻一個延遲的反饋,這種延遲隨著擁塞程度的增加而增加。這可以暫時減少螞蟻從擁塞節點流向其鄰節點的流量,防止影響螞蟻路由到擁塞節點的路由表。并且由于延遲螞蟻的age的增加,根據Δp的計算公式,它們對路由表的影響變小,而路由表又會決定新呼叫的路由。網絡性能是通過呼叫失敗來衡量的,與使用固定的最短路由途徑算法相比,使用ABC路由方案會顯示出更少的呼叫失敗,同時表現出許多有吸引力的分布式控制功能。

? 交通管理:交通流觀測和交通擁堵信息通常是使用放置在主干道上的感應門計數通過特定位置的車輛來得到的,作為當前信息廣播給車輛。交通擁塞控制是一種集中機制,可以用作間接通信的共識主動性機制實現去中心化交通擁堵管理。在交通運輸和多智能體系統領域,動態短期記憶一直是研究的熱點。近年來,探測車輛信息或智能手機提供的更短期的交通信息,這種短期的流量信息就被建模成共識主動性,用于間接通信進行智能體之間的合作,使分布式交通擁堵管理的動態協調方法成為可能。

例2.1.8 文獻[17]中,共識主動性信息分為長期和短期兩種,數值實驗的評價指標是在24個節點的道路網絡中,300輛車從各自起點到各自終點所花費的總時間。長期共識主動性信息是每條道路l、每x個小時更新值vl=ave+sd×0.05,ave是花費時間的平均值,sd是道路上所有存儲數據的標準差。短期共識主動性信息是每5min更新值vs=ave+sds×0.05,其中的sds是最近5min存儲數據的標準差;如果最近5min內沒有車輛經過,則該鏈路vs=v0。將長短期信息結合vls=vs×(1-w)+vl×w,則每隔5min內的所有探測車輛都會根據長期和短期共識主動性信息找到到達目的地節點的最佳路徑。此外,文獻[17]還引入基于預期的共識主動性信息va,其根據該道路探測車輛的總數和道路容量等信息。如果車輛多,va就會短暫增加,并據此搜索最佳路線。實驗結果均表明,與所有車輛通過Dijkstra搜索最佳路徑而不共享任何流量信息相比,車輛通過共識主動性機制在擁塞等情況下動態選擇路線,花費的總時間顯著降低。

? 群體機器人跟蹤與搜索動態目標:在未知環境中進行目標搜索是機器人技術的基本問題之一,與單個但性能更高的機器人相比,目標搜索任務可以由一組自動移動的機器人執行。第11章將會講到,由于群體效應,群體機器人系統在實施這些任務時可能具有更好的性能。群體機器人的協作依賴于通信,直接通信需實時傳輸和接收大量信息,并且會收到通信帶寬的限制。間接通信雖無法直接將信息傳遞給機器人,但沒有帶寬的限制,使得機器人系統的大小可以擴展。個體只需要解碼和修改環境中留下的信息,并據此確定自己的行為。

例2.1.9 文獻[18]提出了一種共識主動性機制的群體機器人跟蹤與搜索動態目標的模型。在執行搜索和跟蹤任務時,機器人無法在整個過程中知道目標的位置和運動趨勢,它們可以獲得的有關目標的唯一信息是檢測到的信號強度。將無線RFID標簽作為機器人間接通信的信息素載體,RFID標簽中存儲的數據形式取決于部署在搜索區域中的信息素模型。每個機器人都帶有RFID讀取器,根據讀取的RFID標簽中的信息素向量和探測到的目標信號強度,機器人決定自身的運動速度和方向。同時,將從標簽中讀取的矢量信息素(包含大小和方向)和根據自己的運動經驗得出的中間向量(有助于生成矢量信息素)生成一個新的向量信息素來重新寫入這個標簽。在整個搜索和跟蹤過程中,機器人通過這種方式間接交互。所有標簽載體形成完整的包含目標信號強度梯度特征的信息素向量地圖,達成對目標的搜索與追蹤效果。這種通信模式降低了對機器人通信能力的要求,使群體具有更強的可擴展性。

文獻[18]分別在平臺仿真和真實世界中進行試驗,驗證了目標做三角形和做圓形運動軌跡時的兩種情況。結果表明,共識主動性機制使得機器人可以在短時間內找到目標,并保持對目標的近距離軌道跟蹤。此外,使用不同數目的機器人,這種機制仍然可行,表明基于共識主動性機制的方案是具有可擴展性的。

大多數應用中的協調過程集中在信息素的維護上,但參與者本身缺乏學習行為策略的能力。例如,ACO算法中的協調過程導致信息素濃度增加,但智能體的行為策略是預先確定的,以概率的方式在幾種濃度中選擇。在更多實際情況下,不能預先確定所涉及的智能體的行為策略,并且智能體必須在維持協調的同時調整自己的策略。在多智能體強化學習中,每個智能體都可以通過與周圍環境交互來學習其行為策略,Aras等人[19]從概念上描述了如何將共識主動性的某些方面引入多智能體強化學習中,并指出共識主動性不同于Markov決策過程(Markov Decision Process, MDP)的兩個特性:

? 非靜態空間,如螞蟻從一個特定的、信息素空的狀態空間開始,并對其進行轉化。

? 非靜態獎勵功能,如螞蟻沒有特定的地點來收集所有死去的螞蟻,所以一開始的獎勵函數是沒有定義的。

在許多基于信息素的學習方法中,強化學習算法采用固定的信息素鋪設過程,在探索空間或更新狀態—動作效用估計的時候,使用當前信息素的數量來表示額外的傳感信息。

例2.1.10 Phe-Q算法(Pheromone-Q Learning)[20-21]將合成信息素與Q學習相結合,在Q學習更新方程中引入了一個必須最大化的置信因子。在捕食者—獵物場景中,繪制不同epoch的連續Q值之間的均方根誤差曲線,將該值小于某閾值作為學習收斂標準。對比采用合成信息素進行通信的Phe-Q學習和無通信的Q學習,前者的收斂速度更快。

Phe-Q中的信息素有兩個可能的離散值:尋找食物時信息素的沉積值φs、帶著食物返回洞穴時信息素的沉積值φn。信息素在一個單元格內聚集直到達到飽和狀態,以φe的速率蒸發,直到沒有智能體訪問該單元格來補充信息素。信息素以φd的速率擴散到相鄰的單元格內,該速率與曼哈頓距離成反比。合成信息素Φ(s) 是一個標量值Φ∈ [0, 255],表示環境中某個單元格s的信息素濃度。Na是所選動作a之后相鄰單元的集合。信念因子,是當前狀態實際信息素濃度和相鄰單元信息素濃度之和的比值,它整合了信息素的基本動態性質:聚集、蒸發和擴散。把信念因子引入Q學習的更新方程中,使其隨Q值一起最大化:ξ是epoch≥0的激活函數,隨著成功執行任務的智能體數量而增加。智能體既沒有對周圍環境的先驗知識,也沒有對食物位置或巢穴的先驗知識。在早期探索中,智能體會在較小的程度上相信信息素地圖,所有智能體都偏向于探索。智能體在找到食物及返回巢穴時獲得獎勵。

主站蜘蛛池模板: 南和县| 恩施市| 鹰潭市| 彭州市| 永吉县| 项城市| 仁化县| 德化县| 延吉市| 贵阳市| 阳西县| 清丰县| 龙胜| 成都市| 阿鲁科尔沁旗| 汾阳市| 独山县| 房山区| 安溪县| 大埔县| 武安市| 高碑店市| 汶上县| 建阳市| 仪陇县| 柘城县| 杭锦后旗| 鄄城县| 兴城市| 文成县| 河北区| 平定县| 陵水| 丹阳市| 出国| 新龙县| 五常市| 南开区| 迁安市| 呼玛县| 石屏县|