強化學習 — 機器學習

概述

強化學習（RL）是機器學習的重要分支，專注於讓智慧體（Agent）透過與環境的互動學習如何做出最佳決策。與監督式學習不同，強化學習不依賴帶有標籤的資料，而是透過試誤（Trial and Error）的方式，根據環境給予的獎賞或懲罰來學習。智慧體需要在探索（嘗試新動作）和利用（使用已知的最佳動作）之間取得平衡，這是強化學習的核心挑戰之一。

核心概念

強化學習的基本框架涉及智慧體、環境、狀態、動作、獎賞和策略之間的互動。整個過程可以形式化為馬可夫決策過程（MDP），包含狀態空間 S、動作空間 A、轉移機率 P(s'|s,a)、獎賞函數 R(s,a,s') 和折扣因子 γ。

核心術語

策略 (Policy)：π(s) 或 π(a|s)，決定在狀態 s 下採取什麼動作
價值函數：V(s) 狀態價值，Q(s,a) 動作價值
獎賞 (Reward)：環境對智慧體動作的即時反饋
回報 (Return)：累積折扣獎賞總和

主要演算法

Q-Learning：基於價值的離線策略演算法，學習最優動作價值函數
Deep Q-Network (DQN)：使用深度神經網路近似 Q 函數
Policy Gradient：直接優化策略參數，適合連續動作空間
Actor-Critic：結合價值為基礎和策略為基礎的方法
PPO：穩定的策略梯度演算法，廣泛應用於實際問題

應用領域

遊戲：AlphaGo、Atari、圍棋、電競 AI
機器人控制：走路、抓取、導航
推薦系統：動態調整推薦策略
自動駕駛：決策規劃與控制

本課程範例

cartpoleVgp.py — CartPole 強化學習
frozenlake.py — FrozenLake Q-Table
train.py — Walker2D 訓練

強化學習 (Reinforcement Learning)

概述

核心概念

核心術語

主要演算法

應用領域

本課程範例

相關連結