受生物神經元啟發的計算模型,深度學習的基礎構建模組
神經網路是受人類大腦神經元結構啟發的計算模型,是深度學習的基礎構建模組。1943 年,McCulloch 和 Pitts 提出了第一個人工神經元模型 MCP neuron。1958 年,Rosenblatt 發明了感知機(Perceptron),開創了機器學習的新時代。2012 年 AlexNet 在 ImageNet 競賽中取得突破性成績,神經網路再次成為 AI 領域的核心技術。
神經網路的核心思想是透過大量的簡單處理單元(神經元)的連接和學習,來表示複雜的函數關係。每個神經元接收輸入,進行加權求和,通過非線性啟動函數產生輸出。
最基礎的網路結構,資訊從輸入層向前傳播到輸出層。通常包含輸入層、若干隱藏層和輸出層,每層由多個神經元組成,層與層之間全連接。
激活函數引入非線性變換,使網路能夠學習複雜模式。常見的激活函數包括:ReLU(線性整流函數,f(x)=max(0,x))、Sigmoid(將輸出壓縮到 0-1 之間)、Tanh(將輸出壓縮到 -1 到 1 之間)。ReLU 是目前最廣泛使用的激活函數,因其能有效緩解梯度消失問題。
均方誤差(MSE)用於回歸問題,交叉熵損失用於分類問題。優化器使用梯度下降及其變體(SGD、Adam 等)來更新網路權重。
神經網路的訓練分為前向傳播和反向傳播兩個階段。前向傳播計算預測輸出,反向傳播利用鏈式法則計算梯度並更新參數。訓練資料被分成多個批次(batch),每個批次計算一次梯度更新。完整遍歷一次訓練資料稱為一個 epoch。