컴퓨터가 이미지를 '이해'하도록 만드는 기술을 컴퓨터 비전(Computer Vision)이라고 합니다.
이미지를 이해하는 데 가장 많이 사용되는 기술은 분류(Classification), 객체 탐지(Object Detection), 세그멘테이션(Segmentation)입니다.
각 개념을 쉽고 명확하게 설명하고, 실제로 언제 어떤 기술을 사용하면 좋을지 살펴 보겠습ㄴ다.
이미지 분석 기술: Classification, Object Detection, Segmentation
목차3. 이미지 세그멘테이션(Image Segmentation)
1. 이미지 분류(Classification)
Classification은 이미지 전체를 보고 그 안에 무엇이 있는지를 분류하는 작업입니다.
즉, 이미지를 하나의 객체로 간주하고, 그 클래스(Label)만 예측합니다.
예를 들어, 강아지 사진을 보고 '강아지'라고 인식하는 것이 바로 이미지 분류입니다.
이 기술은 이미지 전체를 하나의 단위로 보고 분석하기 때문에, 하나의 객체만 포함된 이미지에 적합합니다.
모델은 사전에 학습된 데이터를 바탕으로 이미지의 특징을 추출하고, 그 이미지가 어떤 클래스에 속하는지를 판단합니다.

◆ 주요 모델
- ResNet-50은 범용성 + 안정성에서 여전히 강력한 기본 선택지
- EfficientNet 시리즈는 정확도와 속도 사이에서 균형 잡힌 선택 가능 (B0~B7)
- MobileNet 시리즈는 빠르고 가볍게 동작해야 하는 환경에 적합
- Transformer 계열(ViT, Swin)은 정확도는 뛰어나지만, 추론 속도는 느린 편
- ConvNeXt는 CNN의 단순성과 ViT의 성능을 접목한 신세대 모델
| 모델 | Top-1 정확도 | 모델 크기 | 속도 | 특징 |
| ResNet-50 | ~76.0% | 약 25M | 중간 (빠른 편) | 전이학습 안정성 최고, 기본 모델로 많이 사용 |
| EfficientNet-B0 | ~77.1% | 약 5.3M | 매우 빠름 | 고정밀 + 경량성, 모바일까지 커버 가능 |
| EfficientNet-B7 | ~84.3% | 약 66M | 느림 | 정확도 최상급, 연산량 많음 |
| MobileNet-v2 | ~71.8% | 약 3.4M | 매우 빠름 | 모바일, 임베디드 환경에 최적화 |
| MobileNet-v3-Large | ~75.2% | 약 5.4M | 매우 빠름 | 성능 + 경량성 균형 우수 |
| DenseNet-121 | ~74.9% | 약 8M | 중간~느림 | 효율적 구조, 연산량 대비 정확도 높음 |
| ConvNeXt-Tiny | ~82.1% | 약 29M | 중간 | 최신 CNN 구조, ViT 수준 성능 |
| ViT-B (Vision Transformer) | ~81.0% (pretrained) | 약 86M | 느림 | 대용량 데이터에서 강력한 성능 |
| Swin Transformer-T | ~81.3% | 약 28M | 중간~느림 | 계층적 Transformer, 분류 외 확장성 우수 |
2. 객체 탐지(Object Detection) : Localization
이미지에 고양이와 강아지처럼 둘 이상의 객체가 포함되어 있을 경우, 다중 라벨 분류(Multi-label Classification)를 사용해 이미지에 포함된 모든 객체의 종류를 예측할 수 있습니다.
하지만 그 객체들이 이미지 속 어디에 있는지는 알 수 없습니다.
이러한 한계를 보완하기 위해 등장한 기술이 바로 이미지 위치 탐색(Image Localization)입니다.
이 기술은 단일 객체의 위치를 이미지 내에서 찾아내고, 그 위치를 사각형 박스(Bounding Box)로 표시합니다.
그러나 이미지에 여러 객체가 존재할 경우, 위치 탐색만으로는 부족합니다.
이럴 땐 객체 탐지(Object Detection) 기술을 사용해야 합니다.
객체 탐지는 이미지 안의 여러 객체에 대해 각각의 클래스와 위치 정보를 동시에 예측합니다.
Detection은 분류(Classification) + 위치 정보(Localization)를 함께 수행합니다.

◆ 주요 모델:
- YOLOv5/YOLOv8: 실무 실시간용으로 가장 널리 쓰이는 경량/속도 최적화 모델
- Faster R-CNN: 정확도 높지만 느림, 연구·정밀 분석용에 적합
- EfficientDet: 다양한 연산량 선택 가능, 범용성 뛰어남
- DETR/RT-DETR: Transformer 기반 탐지, 구조는 복잡하지만 정확도 우수
- Grounding DINO: 텍스트 기반 객체 탐지가 필요한 차세대 어플리케이션용
| 모델 | 추론시간 | 정확도(mAP@0.5) | 특징 |
| YOLOv5 (n/s/m/l/x) | 매우 빠름 (최대 150 FPS 이상) |
높음 (50~65% 이상) | 실시간 성능 최적화, 경량 모델(n/s)부터 고성능(x)까지 선택 다양 |
| YOLOv8 | 매우 빠름 | 매우 높음 (COCO 기준 ~53.9 mAP) |
YOLO 시리즈 최신 버전, ONNX/TFLite 변환 쉬움 |
| Faster R-CNN | 느림 (~5 FPS 이하) | 매우 높음 (70% 이상) (backbone에 따라 다름) |
고정밀 탐지, Region Proposal 기반. 실시간엔 부적합 |
| SSD | 빠름 (30~60 FPS) | 중간 (40%) | 연산 효율 뛰어남, 모바일 기기에서 적합 |
| EfficientDet (D0~D7) | 느림 | 높음 (55%) | 정확도-연산량 균형 우수, 모델 스케일 선택 가능 |
| DETR | 느림 ( |
높음 (~60%) | Transformer 기반, anchor-free, 정밀도는 높지만 학습 시간 김 |
| RT-DETR | 중간~빠름 (30+ FPS) | 높음 (57%) | DETR 구조 기반 + 실시간 처리 가능 |
| Grounding DINO | 느림 (20~30 FPS 이하) | 매우 높음 (open-vocab 기준) | 텍스트 기반 객체 탐지 가능, open vocabulary 지원, 대규모 모델 사용 |
3. 이미지 세그멘테이션(Image Segmentation)
이미지 세그멘테이션은 이미지를 더욱 정밀하게 이해하기 위한 기술로,
객체를 탐지하거나 분류하기에 앞서 이미지를 영역별로 나누어 분석할 때 사용됩니다.
이미지를 전체적으로 한 번에 처리하면, 중요한 정보가 없는 배경까지 포함되어 불필요한 계산이 늘어나고 정확도가 떨어질 수 있습니다.
그래서 세그멘테이션은 의미 있는 부분만 구분해서 분석할 수 있도록 도와줍니다.

이미지는 수많은 픽셀(pixel)로 구성되어 있습니다.
세그멘테이션은 이 픽셀들을 비슷한 특성에 따라 그룹화(segment) 하여, 각 픽셀이 어떤 객체에 속하는지를 알아냅니다.
◆ 주요 모델:
- SegFormer 시리즈는 최근 가장 뛰어난 속도-정확도 균형형 세그멘테이션 모델로 주목
- DeepLab v3+, Swin-Unet은 정밀도 높은 분야(자율주행/의료)에서 강세
- U-Net은 여전히 의료 영상에서 기본 베이스라인으로 많이 사용됨
- Mask R-CNN은 객체 탐지와 픽셀 마스크를 동시에 처리해야 할 때 적합
| 모델 | 년도 | 특징 | 응용 분야 |
| U-Net | 2015 | Encoder-Decoder 구조, skip connection으로 위치 정보 보존 |
의료 영상, 생물학 이미지 분할 |
| DeepLab v3+ | 2018 | Atrous Convolution + ASPP로 다중 해상도 특징 추출 | 자율주행, 일반 물체 분할 |
| PSPNet | 2017 | Pyramid Pooling Module로 전역+국소 정보 통합 | 장면 이해, 도시 풍경 분석 |
| Mask R-CNN | 2017 | Faster R-CNN에 마스크 예측 브랜치 추가 → Instance Segmentation 가능 |
객체 인식 + 픽셀 분할, 정밀 영역 분석 |
| HRNet | 2019 | 고해상도 feature map을 끝까지 유지 → 경계선 표현 우수 |
인체 포즈 추정, 정밀 분석 |
| SegFormer | 2021 | Lightweight Transformer 기반, 다양한 크기에서 빠르게 작동 | 모바일·엣지 환경, 범용 세그멘테이션 |
| Swin-Unet / Swin Transformer | 2021 | Swin Transformer 구조 기반, 계층적 패치 분할 → 성능 + 전역 표현력 | 의료 영상, 3D 시각, 최신 연구 중심 |
4. Sementic vs Instance vs Panoptic Segmentation 비교
◆ 시맨틱 세그멘테이션(Semantic Segmentation)
- 시맨틱 세그멘테이션은 이미지 전체를 픽셀 단위로 분류하여
- 모든 픽셀이 특정 카테고리에 속하도록 마스크를 생성하는 방식입니다.
- 그러나 이 경우, 같은 카테고리에 속한 픽셀은 모두 동일한 세그먼트로 간주됩니다.
- 예를 들어, 두 명의 사람이 있다면 둘 다 "사람" 클래스에 속하므로 동일한 색상으로 마스크 처리됩니다.

◆ 인스턴스 세그멘테이션(Instance Segmentation)
- 인스턴스 세그멘테이션은 단순히 객체의 범위를 탐지하는 것에서 그치지 않고,
- 같은 카테고리에 속하더라도 객체마다 개별 인스턴스로 식별하는 세분화 작업입니다.
- 아래 예시 이미지에서 각 사람과 유리컵이 모두 서로 다른 색상으로 표시되는 것을 볼 수 있습니다.
- 같은 클래스라 하더라도 인스턴스가 다르면 다른 마스크 색상을 갖습니다.

◆ 패놉틱 세그멘테이션(Panoptic Segmentation)
- 파놉틱 세그멘테이션은 시맨틱과 인스턴스 세그멘테이션을 결합한 개념입니다.
- 이미지 내 모든 픽셀을 분류하며, 같은 클래스라도 인스턴스가 다르면 서로 다른 라벨로 구분합니다.
- 파놉틱 세그멘테이션 이미지에서는
사람 A, B, C는 같은 "사람" 클래스이지만 각기 다른 색상(인스턴스)으로 표시되고,
배경도 별도로 처리됩니다.

| 유형 | 설명 | 인스턴스 구분 |
| 시맨틱 세그멘테이션 | 픽셀마다 클래스 구분, 인스턴스는 동일 처리 주로 배경과 객체를 구분하는 데 사용됩니다. 예: 도로 vs 차, 하늘 vs 건물 |
X |
| 인스턴스 세그멘테이션 | 픽셀마다 클래스 + 개별 인스턴스 구분 정밀한 라벨링이 필요한 경우 필수입니다. 예: 다양한 동물 종, 식물 개체, 군중 속 개별 사람 탐지 |
O |
| 패놉틱 세그멘테이션 | 시맨틱 + 인스턴스 세그멘테이션 결합 자율주행 차량 등에서 많이 사용됩니다. 예: 도로, 차량, 사람, 표지판 등을 정확하고 종합적으로 파악 |
O + 전체 마스크 생성 |
5. 이미지 분석 기술 비교
| 항목 | Classification | Object Detection | Image Segmentation |
| 질문 | 이 이미지에 뭐가 있지? | 어떤 객체가 있고 어디에 있지? | 어떤 픽셀이 어떤 객체에 속하지? |
| 출력 | 클래스 라벨 | 클래스 + Bounding Box | 클래스 + 마스크 (픽셀 단위) |
| 객체 수 | 하나 또는 여러 개 | 여러 개 | 여러 개, 개별 구분 가능 |
| 정밀도 | 낮음 | 중간 | 높음 |

| 분야 | 활용 기술 | 예시 |
| 전자상거래 | Classification | 제품 자동 분류 및 추천 |
| 스마트 시티 | Object Detection | CCTV로 사람 및 차량 탐지 |
| 자율주행차 | Segmentation | 차선, 보행자, 도로 인식 |
| 의료 진단 | Segmentation | 장기, 종양, 혈관 픽셀 분할 |
| 위성 이미지 분석 | Detection + Segmentation | 공항, 도시 변화 감지 |
관련 글 링크
Image Classification vs Object Detection vs Image Segmentation
The difference between Image Classification, Object Detection and Image Segmentation in the context of Computer Vision
medium.com
https://medium.com/inovako/object-detection-vs-image-segmentation-e5290e4690d
Object detection vs Image segmentation
In this article, I aim to compare and contrast object detection and image segmentation, and perhaps help you decide which technique to use…
medium.com
https://www.superannotate.com/blog/image-segmentation-for-machine-learning
Image segmentation detailed overview [Updated 2024] | SuperAnnotate
Discover image segmentation types, techniques, and applications. Leverage your image segmentation project by reading this detailed overview.
www.superannotate.com
'5. IT기술노트 > 인공지능' 카테고리의 다른 글
| 객체 탐지 모델 성능 지표:IoU,Precision,Recall,AP,mAP,FPS (0) | 2025.04.23 |
|---|---|
| 회기 모델 성능 지표: MAE, MSE, RMSE, MAPE, MPE, R² (0) | 2025.04.23 |
| 분류 모델 성능 지표: Confusion Matrix (0) | 2025.04.23 |
| 전이 학습(Transfer Learning):Fine-tuning (0) | 2025.04.16 |
| 인공지능, 머신러닝, 딥러닝 개념 이해: AI,ML,DL (0) | 2025.04.16 |