電腦視覺 (Computer Vision)

使計算機能夠「看見」和理解視覺世界的技術

概述

電腦視覺是人工智慧領域中使計算機能夠「看見」和理解視覺世界的分支。從圖像分類、物體偵測到語義分割，電腦視覺技術已廣泛應用於自動駕駛、醫學影像分析、人臉識別、視頻監控等領域。從早期的手工特徵（SIFT、HOG）到現代的深度卷積神經網路（CNN），電腦視覺經歷了革命性的變革。

卷積神經網路 (CNN)

CNN 的核心構件包括卷積層（Conv2d）、批歸一化（BatchNorm）、激活函數（ReLU）和池化層。深度可分離卷積 (Depthwise Separable Conv) 將標準卷積分解為深度卷積和逐點卷積，大幅減少計算量。殘差塊 (Residual Block) 透過捷徑連接 (Shortcut Connection) 解決深層網路的梯度消失問題。Squeeze-and-Excitation 模塊通過通道注意力機制提升特徵表達能力。

經典架構與物體偵測

ResNet：使用殘差塊構建深層網路，有 ResNet-18/34/50/101/152 等變體。 EfficientNet：通過神經架構搜索同時優化網路深度、寬度和解析度。物體偵測中，錨框 (Anchor) 用於生成候選區域，非極大值抑制 (NMS) 用於去除冗餘檢測框。兩階段檢測器（如 Faster R-CNN）先提議區域再分類，單階段檢測器（如 YOLO）直接預測邊界框和類別。

語義分割

U-Net：編碼器-解碼器結構，透過跳躍連接 (Skip Connection) 保留空間細節，特別適合醫學影像分割。 DeepLabV3+：使用空洞卷積 (Atrous Convolution) 擴大感受野，搭配空洞空間金字塔池化 (ASPP) 捕捉多尺度上下文信息。語義分割為每個像素分配類別標籤，實例分割則進一步區分同一類別的不同個體。

概述

卷積神經網路 (CNN)

經典架構與物體偵測

語義分割

相關連結