強化學習 (Reinforcement Learning)

讓智慧體透過與環境互動學習最佳決策

概述

強化學習(RL)是機器學習的重要分支,專注於讓智慧體(Agent)透過與環境的互動學習如何做出最佳決策。與監督式學習不同,強化學習不依賴帶有標籤的資料,而是透過試誤(Trial and Error)的方式,根據環境給予的獎賞或懲罰來學習。智慧體需要在探索(嘗試新動作)和利用(使用已知的最佳動作)之間取得平衡,這是強化學習的核心挑戰之一。

核心概念

強化學習的基本框架涉及智慧體、環境、狀態、動作、獎賞和策略之間的互動。整個過程可以形式化為馬可夫決策過程(MDP),包含狀態空間 S、動作空間 A、轉移機率 P(s'|s,a)、獎賞函數 R(s,a,s') 和折扣因子 γ。

核心術語

主要演算法

應用領域

本課程範例

相關連結