微分、積分與最佳化
一個函數 f(x) 在點 x 的導數定義為極限:f'(x) = lim_{h→0} (f(x+h) - f(x)) / h,代表函數圖形在該點切線的斜率。
基本微分法則:常數微分為 0,冪函數微分 d/dx(xⁿ) = nxⁿ⁻¹,鏈式法則 d/dx(f(g(x))) = f'(g(x))·g'(x)。常見導數包括 d/dx(sin x) = cos x、d/dx(eˣ) = eˣ、d/dx(ln x) = 1/x。
積分是微分的逆運算。不定積分 ∫f(x)dx = F(x) + C 其中 F'(x) = f(x)。定積分 ∫ₐᵇ f(x)dx 計算函數曲線下的面積。
微積分基本定理建立了微分和積分之間的深刻聯繫:若 F(x) = ∫ₐˣ f(t)dt,則 F'(x) = f(x)。若 F 是 f 的反導數,則 ∫ₐᵇ f(x)dx = F(b) - F(a)。
對於多變數函數,偏導數是固定其他變數對某一變數的微分。梯度 ∇f = (∂f/∂x₁, ∂f/∂x₂, ..., ∂f/∂xₙ) 是由偏導數組成的向量,指向函數增長最快的方向。
Hessian 矩陣由二階偏導數組成,用於判斷極值點的性質(正定=極小值,負定=極大值)。
梯度下降法是最最佳化的核心演算法:x_{n+1} = x_n - α∇f(x_n),其中 α 是學習率。對於凸函數,若學習率適當則保證收斂到全域極小值。
常見變種包括:SGD(每次使用單個樣本)、小批量梯度下降、動量法、Adam(結合動量和自適應學習率)。
反向傳播是神經網路訓練的核心演算法,本質上是應用梯度下降法,利用多變數鏈式法則計算每個參數的梯度。