使計算機能夠「看見」和理解視覺世界的技術
電腦視覺是人工智慧領域中使計算機能夠「看見」和理解視覺世界的分支。從圖像分類、物體偵測到語義分割,電腦視覺技術已廣泛應用於自動駕駛、醫學影像分析、人臉識別、視頻監控等領域。從早期的手工特徵(SIFT、HOG)到現代的深度卷積神經網路(CNN),電腦視覺經歷了革命性的變革。
CNN 的核心構件包括卷積層(Conv2d)、批歸一化(BatchNorm)、激活函數(ReLU)和池化層。深度可分離卷積 (Depthwise Separable Conv) 將標準卷積分解為深度卷積和逐點卷積,大幅減少計算量。殘差塊 (Residual Block) 透過捷徑連接 (Shortcut Connection) 解決深層網路的梯度消失問題。Squeeze-and-Excitation 模塊通過通道注意力機制提升特徵表達能力。
ResNet:使用殘差塊構建深層網路,有 ResNet-18/34/50/101/152 等變體。 EfficientNet:通過神經架構搜索同時優化網路深度、寬度和解析度。物體偵測中,錨框 (Anchor) 用於生成候選區域,非極大值抑制 (NMS) 用於去除冗餘檢測框。兩階段檢測器(如 Faster R-CNN)先提議區域再分類,單階段檢測器(如 YOLO)直接預測邊界框和類別。
U-Net:編碼器-解碼器結構,透過跳躍連接 (Skip Connection) 保留空間細節,特別適合醫學影像分割。 DeepLabV3+:使用空洞卷積 (Atrous Convolution) 擴大感受野,搭配空洞空間金字塔池化 (ASPP) 捕捉多尺度上下文信息。語義分割為每個像素分配類別標籤,實例分割則進一步區分同一類別的不同個體。