資訊的量化、儲存與傳輸
資訊理論是由克勞德·夏農 (Claude Shannon) 在 1948 年創立的一門數學學科,主要研究資訊的量化、儲存、傳輸和處理。其核心目標是研究如何有效率且準確地在通訊系統中傳遞訊息。資訊理論對現代通訊、資料壓縮、機器學習等領域產生了深遠影響。
熵是資訊理論中最核心的概念,用來衡量隨機變數或資訊源的不確定性。對於離散隨機變數 X,熵定義為 H(X) = -∑p(x) log₂ p(x),單位是位元 (bit)。
熵的三個直覺意義:
對於二元隨機變數,H(p) = -p log₂ p - (1-p) log₂(1-p),在 p = 0.5 時達到最大值 1。
範例:硬幣擲出正面機率 p = 0.7,H = -0.7 log₂(0.7) - 0.3 log₂(0.3) = 0.882 bits。若硬幣公平 (p = 0.5),H = 1 bit。越不公平的硬幣,熵越低。
交叉熵用來衡量兩個機率分佈之間的差異:H(p, q) = -∑p(x) log₂ q(x)。交叉熵 = 熵 + KL 散度:H(p, q) = H(p) + DKL(p ‖ q)。
KL 散度(相對熵)用來衡量用一個分佈近似另一個分佈所付出的代價:DKL(p ‖ q) = ∑p(x) log₂(p(x)/q(x))。KL 散度是非對稱的:DKL(p ‖ q) ≠ DKL(q ‖ p)。
互資訊用來衡量兩個隨機變數之間的相互依賴程度:I(X; Y) = ∑∑p(x,y) log₂(p(x,y)/(p(x)p(y)))。也可寫成 I(X; Y) = H(X) - H(X|Y) = H(Y) - H(Y|X)。
霍夫曼編碼是一種無損資料壓縮演算法,核心思想是給予高頻率的字元較短的編碼、低頻率的字元較長的編碼。熵是理論上的最小平均編碼長度。
信道容量由夏農-哈特利定理給出:C = B log₂(1 + S/N)。若傳輸速率 R < C,則存在一種編碼方式可使錯誤機率任意小;若 R > C,則無法實現可靠傳輸。這就是著名的香農極限。
應用領域:資料壓縮 (ZIP)、通訊系統 (5G)、機器學習 (損失函數)、密碼學 (金鑰長度設計)。