컴퓨터가 보는 법 — 분류/탐지/분할과 비전 SOTA (AI 입문 02)

앞에서 소리로 분류기를 만들어 봤다. 이번엔 같은 원리를 이미지로 옮긴다. 그런데 그 전에 짚을 게 하나 있다. 컴퓨터는 사진을 우리처럼 "보지" 않는다. 컴퓨터 눈에 고양이 사진은 귀여운 동물이 아니라 수백만 개의 숫자다.

사진을 아주 크게 확대하면 작은 칸(픽셀)들이 보이고, 각 칸은 색을 나타내는 숫자(빨강/초록/파랑 값)다. 컴퓨터에게 이미지는 이 숫자들이 빽빽이 깔린 격자판이다. AI는 그 숫자판에서 패턴을 찾아 "이건 고양이"라고 답한다. 오늘 다루는 컴퓨터 비전(CV(Computer Vision: 컴퓨터 비전))은 전부 이 숫자판에서 정보를 뽑아내는 일이다.

같은 사진, 세 단계의 정밀도 — 분류, 탐지, 분할

사진 한 장에서 뽑아낼 수 있는 정보는 정밀도에 따라 세 단계로 나뉜다. 영어 용어가 곧 검색어이자 모델 이름의 바탕이 되니 함께 익혀 두면 좋다.

분류(Image Classification) — "이 사진은 고양이다." 사진 전체에 라벨 하나를 붙인다.
탐지(Object Detection) — "고양이는 여기, 강아지는 저기 있다." 물체의 위치를 네모 상자(바운딩 박스)로 짚는다.
분할(Segmentation) — "고양이의 윤곽선은 정확히 이 모양이다." 픽셀 단위로 경계를 그린다. 종류가 같은 것끼리만 칠하면 의미 분할(Semantic Segmentation), 개체 하나하나를 구분하면 인스턴스 분할(Instance Segmentation)이다.

같은 사진에서 점점 더 정밀한 정보를 뽑는 단계다. 분류는 "무엇이 있나", 탐지는 "어디에 있나", 분할은 "어떤 모양인가"까지 답한다. 탐지의 대표 모델로 YOLO(You Only Look Once: 한 번에 보고 찾는 모델)가 유명한데, 이름처럼 사진을 한 번 보고 여러 물체의 위치와 종류를 동시에 빠르게 찾아낸다.

컴퓨터 비전은 언제 폭발했나

컴퓨터에게 사진을 이해시키려는 시도는 수십 년 됐지만, 판이 바뀐 해는 분명하다. 2012년이다. 그해 이미지 분류 대회(ImageNet)에서 한 모델(AlexNet)이 딥러닝과 GPU를 앞세워 오답률을 단번에 끌어내리며 우승했다. "사람이 규칙을 짜는" 방식에서 "데이터로 규칙을 배우는" 방식으로 무게추가 넘어간 순간이고, 여기서부터 컴퓨터 비전이 폭발했다.

그 뒤로는 정밀도를 높이고 속도를 끌어올리는 방향으로 갈라져 발전했다.

2012, 분류 폭발 — AlexNet이 ImageNet에서 우승. CNN(Convolutional Neural Network: 합성곱 신경망)과 GPU의 시대가 열렸다.
2015, 탐지의 실시간화 — YOLO가 등장한다. 사진을 한 번 보고 여러 물체를 동시에 찾아, 그 전 방식보다 훨씬 빨라지면서 영상 실시간 탐지가 가능해졌다.
2015~2017, 분할의 정교화 — 픽셀 단위로 경계를 그리는 모델들(Mask R-CNN 등)이 나오며 "어떤 모양인가"까지 답하게 됐다.
2020, 트랜스포머의 진입 — ViT(Vision Transformer: 비전 트랜스포머)가 언어 모델의 구조를 비전으로 가져왔다. 이미지와 글을 함께 이해하는 흐름의 출발점이다.
2023, 파운데이션 모델 — SAM(Segment Anything Model: 무엇이든 분할하는 모델)이 등장한다. 따로 학습시키지 않아도 클릭 한 번으로 어떤 물체든 분할한다.
2024~2025, 영상과 개념으로 — SAM 2가 영상 분할로, SAM 3가 "줄무늬 고양이"처럼 말로 개념을 찍어 분할하는 단계로, 그리고 YOLO26이 CPU에서도 빠른 엣지 효율로 나아갔다.

분야별 SOTA와 그 이유

지금(2026년) 각 분야의 최고 성능(SOTA(State of the Art: 최고 성능)) 모델과, 왜 그게 앞서는지를 간단히 본다.

분야	대표 SOTA	왜 강한가
탐지 (Object Detection)	YOLO26	한 번에 보고 찾는 구조에 더해 후처리 단계까지 없애(NMS 제거) CPU/엣지에서도 빠르다. 속도와 정확도의 균형
분할 (Segmentation)	SAM 3	고정된 라벨 목록 없이 짧은 말이나 예시만으로 모든 인스턴스를 찾아 분할(개방형 어휘)하고 영상까지 추적
분류 (Image Classification)	ViT / 자가지도 계열	대규모 데이터로 미리 학습한 표현을 가져다 쓰는 게 표준. 트랜스포머가 주류로 자리 잡음

YOLO 계열이 탐지에서 오래 SOTA 자리를 지키는 이유는 한마디로 실시간이다. 가장 정확하기만 한 모델이 아니라, 충분히 정확하면서 가장 빠른 쪽이라 자율주행이나 CCTV처럼 끊김 없이 돌아야 하는 현장에서 표준이 됐다. 최신 YOLO26은 후처리를 없애 배포가 간단해지고 작은 기기에서도 빠르게 도는 쪽으로 더 밀어붙였다 (Ultralytics 발표).

SAM 3가 분할의 판을 다시 짠 이유는 학습 없이 말로 시킬 수 있다는 범용성이다. 예전 분할 모델은 미리 정해 둔 라벨(사람/차/고양이...)만 다뤘지만, SAM 3는 "줄무늬 고양이"라고 입력하면 사진과 영상에서 해당하는 것을 모두 찾아 칠한다. 라벨 목록을 짤 필요가 없어 활용 폭이 확 넓어졌다 (Meta 발표).

직접 해 보기 ① 이미지 분류 — 내가 가르치는 눈

지난 글의 소리 분류와 완전히 같은 방식이다. 클래스를 세 개 만들고(예: 펜, 컵, 휴대폰), 각 물체를 웹캠 앞에서 여러 각도로 찍어 학습시키면, 그 자리에서 물체를 알아보는 분류기가 생긴다 (Teachable Machine의 이미지 프로젝트). 가르치는 원리는 소리든 이미지든 똑같다. 예시를 보여 주면 패턴을 익힌다.

여기서도 함정을 하나 만나 보자. 늘 같은 배경에서 학습시키면, 모델이 물체가 아니라 배경을 외워 잘 맞는 것처럼 보인다. 배경을 바꿔 테스트하면 갑자기 헷갈려 한다. "데이터가 다양해야 진짜로 배운다"를 눈으로 확인하는 순간이다.

직접 해 보기 ② 객체 탐지 — 위치까지 찾기

분류가 "사진 전체에 라벨 하나"라면, 탐지는 "여기에 무엇, 저기에 무엇"까지 짚는다. 사람과 차와 사물이 여럿 있는 사진을 최신 YOLO 데모에 올리면, 물체마다 네모 상자와 라벨, 신뢰도(%)가 붙어 나온다 (Ultralytics YOLO26 데모, 브라우저에서 바로 실행). 작은 물체, 겹친 물체, 흐린 사진을 넣어 보면 탐지가 어떻게 흔들리는지도 보인다.

온프렘으로도 — 같은 모델을 내 서버에서

방금 브라우저에서 돌린 그 YOLO는 오픈소스다. 온라인 데모로 감을 잡았다면, 같은 모델을 내 서버에 띄워 영상이나 대량 이미지를 직접 돌릴 수도 있다. 탐지의 대표 오픈 모델은 Ultralytics YOLO(최신 YOLO26 포함), 픽셀 단위 분할의 최신 오픈 모델은 Meta의 SAM 3다. 수업에서는 이 오픈 모델들을 온프렘(사내 서버)에 올려 같은 작업을 직접 시연한다. 온라인 데모로 "무엇이 되는지"를 보고, 온프렘으로 "내 데이터로 어떻게 쓰는지"를 잇는 식이다.

어디에 쓰이나

이 세 단계는 우리 일상 곳곳에서 돌아간다. 자율주행은 보행자와 차선을 탐지하고, 공장은 컨베이어 위 제품에서 불량을 골라낸다. 병원은 의료 영상 속 병변을 짚어 주고, CCTV는 움직임을 식별한다. 전부 "숫자판에서 패턴을 뽑는" 같은 일의 변주다.

정리 — 보는 AI에서 만드는 AI로

컴퓨터는 이미지를 픽셀 숫자로 보고, 거기서 분류(무엇), 탐지(어디), 분할(어떤 모양)로 점점 정밀하게 정보를 뽑는다. 2012년 이후 빠르게 발전해 지금은 YOLO26이 실시간 탐지를, SAM 3가 말로 시키는 분할을 이끈다. 여기까지가 "보는 AI"다.

다음 글에서는 방향을 뒤집는다. 이미지를 알아보는 대신 이미지를 만들어 내는 생성 AI로 넘어간다. 글 몇 줄로 그림이 튀어나오는 그 마법이 사실은 어떻게 작동하는지 본다.

02. 컴퓨터가 보는 법 — Vision 체험