5. IT기술노트/인공지능

이미지 분석 기술: Classification, Object Detection, Segmentation

쿼드큐브 2025. 4. 22. 17:22
반응형
반응형

 

컴퓨터가 이미지를 '이해'하도록 만드는 기술을 컴퓨터 비전(Computer Vision)이라고 합니다.
이미지를 이해하는 데 가장 많이 사용되는 기술은 분류(Classification), 객체 탐지(Object Detection), 세그멘테이션(Segmentation)입니다.
각 개념을 쉽고 명확하게 설명하고, 실제로 언제 어떤 기술을 사용하면 좋을지 살펴 보겠습ㄴ다.
 

이미지 분석 기술: Classification, Object Detection, Segmentation

 

목차

1. 이미지 분류(Classification)

2. 객체 탐지(Object Detection)

3. 이미지 세그멘테이션(Image Segmentation)

4. Semantic vs Instance vs Panoptic Segmentation

5. 이미지 분석 기술 비교

관련 글 링크

 
 

1. 이미지 분류(Classification)

Classification은 이미지 전체를 보고 그 안에 무엇이 있는지를 분류하는 작업입니다.
즉, 이미지를 하나의 객체로 간주하고, 그 클래스(Label)만 예측합니다.
 
예를 들어, 강아지 사진을 보고 '강아지'라고 인식하는 것이 바로 이미지 분류입니다.
이 기술은 이미지 전체를 하나의 단위로 보고 분석하기 때문에, 하나의 객체만 포함된 이미지에 적합합니다.
모델은 사전에 학습된 데이터를 바탕으로 이미지의 특징을 추출하고, 그 이미지가 어떤 클래스에 속하는지를 판단합니다.

출처:https://medium.com/analytics-vidhya/image-classification-vs-object-detection-vs-image-segmentation-f36db85fe81

 
◆ 주요 모델

  • ResNet-50은 범용성 + 안정성에서 여전히 강력한 기본 선택지
  • EfficientNet 시리즈는 정확도와 속도 사이에서 균형 잡힌 선택 가능 (B0~B7)
  • MobileNet 시리즈는 빠르고 가볍게 동작해야 하는 환경에 적합
  • Transformer 계열(ViT, Swin)은 정확도는 뛰어나지만, 추론 속도는 느린 편
  • ConvNeXt는 CNN의 단순성과 ViT의 성능을 접목한 신세대 모델
모델 Top-1 정확도 모델 크기 속도 특징
ResNet-50 ~76.0% 약 25M 중간 (빠른 편) 전이학습 안정성 최고, 기본 모델로 많이 사용
EfficientNet-B0 ~77.1% 약 5.3M 매우 빠름 고정밀 + 경량성, 모바일까지 커버 가능
EfficientNet-B7 ~84.3% 약 66M  느림 정확도 최상급, 연산량 많음
MobileNet-v2 ~71.8% 약 3.4M 매우 빠름 모바일, 임베디드 환경에 최적화
MobileNet-v3-Large ~75.2% 약 5.4M 매우 빠름 성능 + 경량성 균형 우수
DenseNet-121 ~74.9% 약 8M 중간~느림 효율적 구조, 연산량 대비 정확도 높음
ConvNeXt-Tiny ~82.1% 약 29M 중간 최신 CNN 구조, ViT 수준 성능
ViT-B (Vision Transformer) ~81.0% (pretrained) 약 86M 느림 대용량 데이터에서 강력한 성능
Swin Transformer-T ~81.3% 약 28M 중간~느림 계층적 Transformer, 분류 외 확장성 우수

 
 

2. 객체 탐지(Object Detection) : Localization

이미지에 고양이와 강아지처럼 둘 이상의 객체가 포함되어 있을 경우, 다중 라벨 분류(Multi-label Classification)를 사용해 이미지에 포함된 모든 객체의 종류를 예측할 수 있습니다.
 
하지만 그 객체들이 이미지 속 어디에 있는지는 알 수 없습니다.
이러한 한계를 보완하기 위해 등장한 기술이 바로 이미지 위치 탐색(Image Localization)입니다.
이 기술은 단일 객체의 위치를 이미지 내에서 찾아내고, 그 위치를 사각형 박스(Bounding Box)로 표시합니다.
 
그러나 이미지에 여러 객체가 존재할 경우, 위치 탐색만으로는 부족합니다.
이럴 땐 객체 탐지(Object Detection) 기술을 사용해야 합니다.
객체 탐지는 이미지 안의 여러 객체에 대해 각각의 클래스와 위치 정보를 동시에 예측합니다.
 
Detection은 분류(Classification) + 위치 정보(Localization)를 함께 수행합니다.

출처:https://medium.com/analytics-vidhya/image-classification-vs-object-detection-vs-image-segmentation-f36db85fe81

 
◆ 주요 모델:

  • YOLOv5/YOLOv8: 실무 실시간용으로 가장 널리 쓰이는 경량/속도 최적화 모델
  • Faster R-CNN: 정확도 높지만 느림, 연구·정밀 분석용에 적합
  • EfficientDet: 다양한 연산량 선택 가능, 범용성 뛰어남
  • DETR/RT-DETR: Transformer 기반 탐지, 구조는 복잡하지만 정확도 우수
  • Grounding DINO: 텍스트 기반 객체 탐지가 필요한 차세대 어플리케이션용
모델 추론시간 정확도(mAP@0.5) 특징
YOLOv5 (n/s/m/l/x) 매우 빠름
(최대 150 FPS 이상)
높음 (50~65% 이상) 실시간 성능 최적화,
경량 모델(n/s)부터 고성능(x)까지 선택 다양
YOLOv8 매우 빠름 매우 높음
(COCO 기준 ~53.9 mAP)
YOLO 시리즈 최신 버전, ONNX/TFLite 변환 쉬움
Faster R-CNN 느림 (~5 FPS 이하) 매우 높음 (70% 이상)
(backbone에 따라 다름)
고정밀 탐지, Region Proposal 기반.
실시간엔 부적합
SSD 빠름 (30~60 FPS) 중간 (40%) 연산 효율 뛰어남, 모바일 기기에서 적합
EfficientDet (D0~D7) 느림 높음 (55%) 정확도-연산량 균형 우수, 모델 스케일 선택 가능
DETR 느림 (13 FPS) 높음 (~60%) Transformer 기반, anchor-free, 정밀도는 높지만 학습 시간 김
RT-DETR 중간~빠름 (30+ FPS) 높음 (57%) DETR 구조 기반 + 실시간 처리 가능
Grounding DINO 느림 (20~30 FPS 이하) 매우 높음 (open-vocab 기준) 텍스트 기반 객체 탐지 가능, open vocabulary 지원, 대규모 모델 사용

 
 

3. 이미지 세그멘테이션(Image Segmentation)

이미지 세그멘테이션은 이미지를 더욱 정밀하게 이해하기 위한 기술로,
객체를 탐지하거나 분류하기에 앞서 이미지를 영역별로 나누어 분석할 때 사용됩니다.
이미지를 전체적으로 한 번에 처리하면, 중요한 정보가 없는 배경까지 포함되어 불필요한 계산이 늘어나고 정확도가 떨어질 수 있습니다.
그래서 세그멘테이션은 의미 있는 부분만 구분해서 분석할 수 있도록 도와줍니다.

출처:https://encord.com/blog/image-segmentation-for-computer-vision-best-practice-guide/

이미지는 수많은 픽셀(pixel)로 구성되어 있습니다.
세그멘테이션은 이 픽셀들을 비슷한 특성에 따라 그룹화(segment) 하여, 각 픽셀이 어떤 객체에 속하는지를 알아냅니다.
 
주요 모델:

  • SegFormer 시리즈는 최근 가장 뛰어난 속도-정확도 균형형 세그멘테이션 모델로 주목
  • DeepLab v3+, Swin-Unet정밀도 높은 분야(자율주행/의료)에서 강세
  • U-Net은 여전히 의료 영상에서 기본 베이스라인으로 많이 사용됨
  • Mask R-CNN은 객체 탐지와 픽셀 마스크를 동시에 처리해야 할 때 적합
모델 년도 특징 응용 분야
U-Net 2015 Encoder-Decoder 구조,
skip connection으로 위치 정보 보존
의료 영상, 생물학 이미지 분할
DeepLab v3+ 2018 Atrous Convolution + ASPP로 다중 해상도 특징 추출 자율주행, 일반 물체 분할
PSPNet 2017 Pyramid Pooling Module로 전역+국소 정보 통합 장면 이해, 도시 풍경 분석
Mask R-CNN 2017 Faster R-CNN에 마스크 예측 브랜치 추가
→ Instance Segmentation 가능
객체 인식 + 픽셀 분할, 정밀 영역 분석
HRNet 2019 고해상도 feature map을 끝까지 유지
→ 경계선 표현 우수
인체 포즈 추정, 정밀 분석
SegFormer 2021 Lightweight Transformer 기반, 다양한 크기에서 빠르게 작동 모바일·엣지 환경, 범용 세그멘테이션
Swin-Unet / Swin Transformer 2021 Swin Transformer 구조 기반, 계층적 패치 분할 → 성능 + 전역 표현력 의료 영상, 3D 시각, 최신 연구 중심

 
 

반응형

 

4. Sementic vs Instance vs Panoptic Segmentation 비교

◆ 시맨틱 세그멘테이션(Semantic Segmentation) 

  • 시맨틱 세그멘테이션은 이미지 전체를 픽셀 단위로 분류하여
  • 모든 픽셀이 특정 카테고리에 속하도록 마스크를 생성하는 방식입니다.
  • 그러나 이 경우, 같은 카테고리에 속한 픽셀은 모두 동일한 세그먼트로 간주됩니다.
  • 예를 들어, 두 명의 사람이 있다면 둘 다 "사람" 클래스에 속하므로 동일한 색상으로 마스크 처리됩니다.

출처: https://www.superannotate.com/blog/image-segmentation-for-machine-learning

 
◆ 인스턴스 세그멘테이션(Instance Segmentation)

  • 인스턴스 세그멘테이션은 단순히 객체의 범위를 탐지하는 것에서 그치지 않고,
  • 같은 카테고리에 속하더라도 객체마다 개별 인스턴스로 식별하는 세분화 작업입니다.
  • 아래 예시 이미지에서 각 사람과 유리컵이 모두 서로 다른 색상으로 표시되는 것을 볼 수 있습니다.
  • 같은 클래스라 하더라도 인스턴스가 다르면 다른 마스크 색상을 갖습니다.

출처: https://www.superannotate.com/blog/image-segmentation-for-machine-learning

 
◆ 패놉틱 세그멘테이션(Panoptic Segmentation)

  • 파놉틱 세그멘테이션은 시맨틱과 인스턴스 세그멘테이션을 결합한 개념입니다.
  • 이미지 내 모든 픽셀을 분류하며, 같은 클래스라도 인스턴스가 다르면 서로 다른 라벨로 구분합니다.
  • 파놉틱 세그멘테이션 이미지에서는
    사람 A, B, C는 같은 "사람" 클래스이지만 각기 다른 색상(인스턴스)으로 표시되고,
    배경도 별도로 처리됩니다.

출처:https://www.superannotate.com/blog/image-segmentation-for-machine-learning

유형 설명 인스턴스 구분 
시맨틱 세그멘테이션 픽셀마다 클래스 구분, 인스턴스는 동일 처리
주로 배경과 객체를 구분하는 데 사용됩니다.
예: 도로 vs 차, 하늘 vs 건물
X
인스턴스 세그멘테이션 픽셀마다 클래스 + 개별 인스턴스 구분
정밀한 라벨링이 필요한 경우 필수입니다.
예: 다양한 동물 종, 식물 개체, 군중 속 개별 사람 탐지

O
패놉틱 세그멘테이션 시맨틱 + 인스턴스 세그멘테이션 결합
자율주행 차량 등에서 많이 사용됩니다.
예: 도로, 차량, 사람, 표지판 등을 정확하고 종합적으로 파악
O + 전체 마스크 생성

 
 

5. 이미지 분석 기술 비교

항목 Classification Object Detection Image Segmentation
질문 이 이미지에 뭐가 있지? 어떤 객체가 있고 어디에 있지? 어떤 픽셀이 어떤 객체에 속하지?
출력 클래스 라벨 클래스 + Bounding Box 클래스 + 마스크 (픽셀 단위)
객체 수 하나 또는 여러 개 여러 개 여러 개, 개별 구분 가능
정밀도 낮음 중간 높음

출처: https://www.superannotate.com/blog/image-segmentation-for-machine-learning

분야 활용 기술 예시
전자상거래 Classification 제품 자동 분류 및 추천
스마트 시티 Object Detection CCTV로 사람 및 차량 탐지
자율주행차 Segmentation 차선, 보행자, 도로 인식
의료 진단 Segmentation 장기, 종양, 혈관 픽셀 분할
위성 이미지 분석 Detection + Segmentation 공항, 도시 변화 감지

 


반응형

 

관련 글 링크

https://medium.com/analytics-vidhya/image-classification-vs-object-detection-vs-image-segmentation-f36db85fe81

 

Image Classification vs Object Detection vs Image Segmentation

The difference between Image Classification, Object Detection and Image Segmentation in the context of Computer Vision

medium.com

https://medium.com/inovako/object-detection-vs-image-segmentation-e5290e4690d

 

Object detection vs Image segmentation

In this article, I aim to compare and contrast object detection and image segmentation, and perhaps help you decide which technique to use…

medium.com

https://www.superannotate.com/blog/image-segmentation-for-machine-learning

 

Image segmentation detailed overview [Updated 2024] | SuperAnnotate

Discover image segmentation types, techniques, and applications. Leverage your image segmentation project by reading this detailed overview.

www.superannotate.com

 

반응형