微積分

微分、積分與最佳化

微分的基礎

一個函數 f(x) 在點 x 的導數定義為極限:f'(x) = lim_{h→0} (f(x+h) - f(x)) / h,代表函數圖形在該點切線的斜率。

基本微分法則:常數微分為 0,冪函數微分 d/dx(xⁿ) = nxⁿ⁻¹,鏈式法則 d/dx(f(g(x))) = f'(g(x))·g'(x)。常見導數包括 d/dx(sin x) = cos x、d/dx(eˣ) = eˣ、d/dx(ln x) = 1/x。

積分的基礎

積分是微分的逆運算。不定積分 ∫f(x)dx = F(x) + C 其中 F'(x) = f(x)。定積分 ∫ₐᵇ f(x)dx 計算函數曲線下的面積。

微積分基本定理建立了微分和積分之間的深刻聯繫:若 F(x) = ∫ₐˣ f(t)dt,則 F'(x) = f(x)。若 F 是 f 的反導數,則 ∫ₐᵇ f(x)dx = F(b) - F(a)。

偏微分與梯度

對於多變數函數,偏導數是固定其他變數對某一變數的微分。梯度 ∇f = (∂f/∂x₁, ∂f/∂x₂, ..., ∂f/∂xₙ) 是由偏導數組成的向量,指向函數增長最快的方向。

Hessian 矩陣由二階偏導數組成,用於判斷極值點的性質(正定=極小值,負定=極大值)。

梯度下降法

梯度下降法是最最佳化的核心演算法:x_{n+1} = x_n - α∇f(x_n),其中 α 是學習率。對於凸函數,若學習率適當則保證收斂到全域極小值。

常見變種包括:SGD(每次使用單個樣本)、小批量梯度下降動量法Adam(結合動量和自適應學習率)。

反向傳播是神經網路訓練的核心演算法,本質上是應用梯度下降法,利用多變數鏈式法則計算每個參數的梯度。

本課程範例

相關程式碼在 code/數學/04-微積分/_ccc

相關連結