微積分 — 數學 — 陳鍾誠的課程教材

微分的基礎

一個函數 f(x) 在點 x 的導數定義為極限：f'(x) = lim_{h→0} (f(x+h) - f(x)) / h，代表函數圖形在該點切線的斜率。

基本微分法則：常數微分為 0，冪函數微分 d/dx(xⁿ) = nxⁿ⁻¹，鏈式法則 d/dx(f(g(x))) = f'(g(x))·g'(x)。常見導數包括 d/dx(sin x) = cos x、d/dx(eˣ) = eˣ、d/dx(ln x) = 1/x。

積分是微分的逆運算。不定積分 ∫f(x)dx = F(x) + C 其中 F'(x) = f(x)。定積分 ∫ₐᵇ f(x)dx 計算函數曲線下的面積。

微積分基本定理建立了微分和積分之間的深刻聯繫：若 F(x) = ∫ₐˣ f(t)dt，則 F'(x) = f(x)。若 F 是 f 的反導數，則 ∫ₐᵇ f(x)dx = F(b) - F(a)。

對於多變數函數，偏導數是固定其他變數對某一變數的微分。梯度 ∇f = (∂f/∂x₁, ∂f/∂x₂, ..., ∂f/∂xₙ) 是由偏導數組成的向量，指向函數增長最快的方向。

Hessian 矩陣由二階偏導數組成，用於判斷極值點的性質（正定=極小值，負定=極大值）。

梯度下降法是最最佳化的核心演算法：x_{n+1} = x_n - α∇f(x_n)，其中 α 是學習率。對於凸函數，若學習率適當則保證收斂到全域極小值。

常見變種包括：SGD（每次使用單個樣本）、小批量梯度下降、動量法、Adam（結合動量和自適應學習率）。

反向傳播是神經網路訓練的核心演算法，本質上是應用梯度下降法，利用多變數鏈式法則計算每個參數的梯度。