讓智慧體透過與環境互動學習最佳決策
強化學習(RL)是機器學習的重要分支,專注於讓智慧體(Agent)透過與環境的互動學習如何做出最佳決策。與監督式學習不同,強化學習不依賴帶有標籤的資料,而是透過試誤(Trial and Error)的方式,根據環境給予的獎賞或懲罰來學習。智慧體需要在探索(嘗試新動作)和利用(使用已知的最佳動作)之間取得平衡,這是強化學習的核心挑戰之一。
強化學習的基本框架涉及智慧體、環境、狀態、動作、獎賞和策略之間的互動。整個過程可以形式化為馬可夫決策過程(MDP),包含狀態空間 S、動作空間 A、轉移機率 P(s'|s,a)、獎賞函數 R(s,a,s') 和折扣因子 γ。