Python | OpenCV 物件分類與定位

📚 前言

在上一篇 人臉偵測與追蹤 中，我們學會了以 Haar、LBP 與 DNN 三種方式偵測並追蹤人臉。
這一篇要進一步介紹 物件分類與定位 (Object Classification & Localization)。
分類是判斷「這是什麼物件」，定位則是標記「它在哪裡」。這是進入多物件偵測與追蹤之前的重要基礎。

🎨 範例圖片與影片

圖片

來源：Pexels - Street Image，屬於無版權圖片，可自由下載與使用。
內容：圖片呈現街道場景，畫面中有車輛與行人，非常適合用來測試物件分類與定位。
下載後將檔名改為 street.jpg，放到專案的 assets/ 目錄下。

影片

來源：Pexels - Street Video，屬於無版權影片，可自由下載與使用。
內容：影片呈現街道上的車輛與行人移動畫面，非常適合用來測試即時物件偵測。
下載後將檔名改為 street.mp4，放到專案的 assets/ 目錄下。

🔎 原理說明

分類 (Classification)：利用 CNN/DNN 模型判斷物件的類別，例如「人」、「車」、「狗」。
定位 (Localization)：輸出邊界框座標 (x, y, w, h)，標記物件位置。
OpenCV DNN 模組：支援 Caffe、TensorFlow、ONNX 等模型，可用於物件分類與定位。

📂 模型下載與使用說明

MobileNet SSD (Caffe)

檔案名稱：
- MobileNetSSD_deploy.prototxt
- MobileNetSSD_deploy.caffemodel
下載來源：
- GitHub — MobileNetSSD prototxt
- GitHub — MobileNetSSD caffemodel

使用方式：

1	net = cv2.dnn.readNetFromCaffe("models/MobileNetSSD_deploy.prototxt", "models/MobileNetSSD_deploy.caffemodel")

💡 下載後的檔案名稱可能不一致，可以自行重新命名即可。

🧠 函式與參數說明

📌 `cv2.dnn.readNetFromCaffe()`

載入 Caffe 模型

1	net = cv2.dnn.readNetFromCaffe(prototxt, model)

prototxt：模型結構檔案。
model：訓練好的權重檔案。

📌 `cv2.dnn.blobFromImage()`

將圖片轉換成 DNN 輸入格式

1	blob = cv2.dnn.blobFromImage(image, scalefactor, size, mean, swapRB, crop)

image：輸入圖片。
scalefactor：縮放比例，常用 0.007843。
size：輸入大小 (width, height)，例如 (300, 300)。
mean：減去的平均值，常用 (127.5, 127.5, 127.5)。
swapRB：是否交換 R 與 B 通道，常用 False。
crop：是否裁切圖片，常用 False。

💻 範例程式 — 圖片物件分類與定位

# object_localization_image.py
import cv2

net = cv2.dnn.readNetFromCaffe("models/MobileNetSSD_deploy.prototxt", "models/MobileNetSSD_deploy.caffemodel")

CLASSES = ["background", "aeroplane", "bicycle", "bird", "boat",
           "bottle", "bus", "car", "cat", "chair", "cow", "diningtable",
           "dog", "horse", "motorbike", "person", "pottedplant",
           "sheep", "sofa", "train", "tvmonitor"]

img = cv2.imread("assets/street.jpg")
(h, w) = img.shape[:2]
blob = cv2.dnn.blobFromImage(cv2.resize(img, (300, 300)), 0.007843, (300, 300), 127.5)

net.setInput(blob)
detections = net.forward()

for i in range(detections.shape[2]):
    confidence = detections[0, 0, i, 2]
    if confidence > 0.5:
        idx = int(detections[0, 0, i, 1])
        box = detections[0, 0, i, 3:7] * [w, h, w, h]
        (x1, y1, x2, y2) = box.astype("int")
        label = CLASSES[idx]
        cv2.rectangle(img, (x1, y1), (x2, y2), (0, 255, 0), 2)
        cv2.putText(img, label, (x1, y1-10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0,255,0), 2)

cv2.imshow("Object Classification & Localization", img)
cv2.waitKey(0)
cv2.destroyAllWindows()

圖：圖片物件分類與定位，框選並標記物件類別

💻 範例程式 — 影片物件分類與定位

# object_localization_video.py
import cv2

net = cv2.dnn.readNetFromCaffe("models/MobileNetSSD_deploy.prototxt", "models/MobileNetSSD_deploy.caffemodel")

CLASSES = ["background", "aeroplane", "bicycle", "bird", "boat",
           "bottle", "bus", "car", "cat", "chair", "cow", "diningtable",
           "dog", "horse", "motorbike", "person", "pottedplant",
           "sheep", "sofa", "train", "tvmonitor"]

cap = cv2.VideoCapture("assets/street.mp4")

while True:
    ret, frame = cap.read()
    if not ret:
        break

    (h, w) = frame.shape[:2]
    blob = cv2.dnn.blobFromImage(cv2.resize(frame, (300, 300)), 0.007843, (300, 300), 127.5)

    net.setInput(blob)
    detections = net.forward()

    for i in range(detections.shape[2]):
        confidence = detections[0, 0, i, 2]
        if confidence > 0.5:
            idx = int(detections[0, 0, i, 1])
            box = detections[0, 0, i, 3:7] * [w, h, w, h]
            (x1, y1, x2, y2) = box.astype("int")
            label = CLASSES[idx]
            cv2.rectangle(frame, (x1, y1), (x2, y2), (0, 255, 0), 2)
            cv2.putText(frame, label, (x1, y1-10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0,255,0), 2)

    cv2.imshow("Video Object Classification & Localization", frame)

    if cv2.waitKey(30) & 0xFF == ord('q'):
        break

cap.release()
cv2.destroyAllWindows()

圖：影片物件分類與定位，逐幀框選並標記物件類別

⚠️ 注意事項

模型檔案需先下載並放在專案目錄。
MobileNet SSD 適合即時應用，但準確度有限。
若需要更高準確度，可以使用 YOLO 或 Faster R-CNN。
偵測速度與準確度會因模型不同而有差異。

📊 應用場景

自駕車：辨識道路上的車輛與行人。
監控系統：即時分類並定位可疑物件。
智慧零售：辨識商品種類與位置。
互動遊戲：追蹤玩家與物件位置。

🎯 結語

本篇我們學會了如何使用 OpenCV 物件分類與定位，透過 DNN 模型在圖片與影片中辨識物件並標記位置。
下一篇進入 多物件偵測與追蹤，進一步處理多個物件的同時偵測與持續追蹤。

📖 如在學習過程中遇到疑問，或是想了解更多相關主題，建議回顧一下 Python | OpenCV 系列導讀，掌握完整的章節目錄，方便快速找到你需要的內容。

註：以上參考了
OpenCV 官方文件 — DNN module
GitHub — MobileNetSSD 模型
 Pexels — 免費圖片與影片素材

Python | OpenCV 人臉偵測與追蹤

Python | OpenCV 多物件偵測與追蹤

↑
If you enjoy the article, please feel free to donate~ Thx.
若本文對您有幫助，您也願意支持打賞，謝謝您的鼓勵。

本文由J.J. Huang 創作，採用CC BY 3.0 TW協議進行許可。可自由轉載、引用，但需署名作者且註明文章出處。

J.J.'s Blogs

J.J. Huang 2026-02-28 Python OpenCV 07.物件偵測與辨識篇瀏覽次數：次 {{moment(1772240400000).fromNow()}}

Python | OpenCV 物件分類與定位

📚 前言

🎨 範例圖片與影片

🔎 原理說明