強化學習中agent與actor的區別

強化學習中agent與actor的區別

Agent無處理邏輯,只收lambda,用lambda加工自己的狀態。Actor有邏輯,收消息,消息可以是數據也可以lambda,Actor處理消息。關鍵區別是:Actor有個主動過濾消息的過程;而agent沒有,是被動的,不論什麼lambda都要執行強化學習,又稱再勵學習、評價學習或增強學習,是機器學習的範式和方法論之一,用於描述和解決智能體在與環境的交互過程中通過學習策略以達成回報最大化或實現特定目標的問題。強化學習的常見模型是標準的馬爾可夫決策過程。