지난 글에서 AI는 "넣으면 나오는 함수"이고, 그 함수의 규칙을 데이터로 찾는 게 머신러닝이라고 했다. 이번엔 말로 듣는 대신 직접 기계를 가르쳐 본다. 코드는 한 줄도 쓰지 않고, 브라우저에서 점을 찍고 소리를 녹음하면서 ML(Machine Learning: 머신러닝)이 어떻게 데이터로 규칙을 빚는지 손으로 느낀다.

전통 머신러닝이 하는 일은 크게 세 가지다. 숫자를 예측하고(회귀), 비슷한 것끼리 묶고(군집), 정해진 칸으로 나눈다(분류). 이름은 달라도 전부 "데이터를 보고 규칙을 찾는다"는 한 뿌리에서 갈라진다.

머신러닝의 세 가지 일 — 예측, 묶기, 나누기

body-2
  • 회귀(Regression) — 연속된 숫자를 예측한다. "면적이 이 정도면 집값은 얼마쯤?" 점들 사이를 가장 잘 지나는 선 하나를 찾는 일이다.
  • 군집(Clustering) — 정답표 없이 비슷한 것끼리 묶는다. "이 고객들을 알아서 몇 그룹으로 나눠 봐." 누가 어느 그룹인지 미리 알려 주지 않아도 구조가 드러난다.
  • 분류(Classification) — 정해진 칸(라벨) 중 하나로 나눈다. "이 소리는 박수일까 휘파람일까?" 미리 정한 범주로 딱 떨어뜨린다.

여기서 한 가지 큰 구분이 생긴다. 정답표가 있으면 지도학습(회귀와 분류), 정답표 없이 스스로 묶으면 비지도학습(군집)이다. 정답을 주느냐 마느냐가 갈림길이다.

직접 해 보기 ① 회귀 — 가장 잘 맞는 선 긋기

점 대여섯 개를 면적과 집값처럼 흩뿌려 놓고, 그 사이를 지나는 직선을 손으로 끌어 본다. 그다음 "정답선"(최소제곱선)을 켜서 내 선과 비교하면, 사람의 눈대중과 기계의 계산이 얼마나 가까운지 보인다. 멀리 떨어진 점 하나(이상치)를 추가하면 선이 휘청이는 것도 직접 보게 된다.

브라우저에서 바로 해 볼 수 있다 (PhET 최소제곱 회귀). "점이 흩어질수록 상관이 약해진다", "이상치 하나가 선을 끌어당긴다"를 눈으로 확인하면 회귀의 감이 잡힌다.

직접 해 보기 ② 군집 — 비슷한 것끼리 묶기

이번엔 정답을 주지 않는다. 점을 흩뿌리고 그룹 수(K)를 3으로 두면, 기계가 중심점을 잡고 가까운 점을 모으고 다시 중심을 옮기기를 반복하며 스스로 세 덩어리로 수렴한다. 한 단계씩 눌러 가며 그 과정을 지켜볼 수 있다 (K-Means 시각화).

재미있는 건 시작점을 바꾸면 결과가 달라진다는 점이다. 정답이 없는 일이라, "어디서 출발했느냐"가 결과를 흔든다. 비지도학습의 묘미이자 함정이다.

직접 해 보기 ③ 분류 — 내가 가르치는 분류기

body-1

이번엔 내가 선생이 된다. 클래스를 세 개 만들고(예: 박수, 휘파람, 책상 두드림), 각각을 마이크로 몇 초씩 녹음한 뒤 학습 버튼을 누르면, 그 자리에서 소리를 알아듣는 분류기가 만들어진다 (Teachable Machine의 오디오 프로젝트). 코드 없이 클릭과 녹음만으로.

여기서 가장 중요한 실험을 해 보자. 한 클래스만 아주 크게 녹음하고 다른 건 작게 녹음한 뒤, 작은 소리를 내 본다. 분류기가 자꾸 큰 소리 쪽으로 오인식한다. 예시로 준 데이터가 치우치면 결과도 치우친다. 이게 그 유명한 "데이터 편향"이다. 멀리 있는 개념이 아니라, 방금 내 손으로 만든 분류기에서 바로 나타난다.

기계로 교차 확인 — 손으로 본 직관이 맞았나

마지막으로 같은 데이터를 AI에게 맡겨 본다. 집값 표를 올리고 "면적으로 집값을 예측하는 회귀선을 그려 줘"라고 하면, 산점도에 적합선을 그린 차트와 기울기/R²(결정계수)까지 내놓는다. 앞서 손으로 끌었던 선과 비교하면 "기계도 같은 일을 했다"는 게 확인된다.

첨부한 집값 표로 면적과 집값의 단순 선형 회귀를 돌리고,
산점도에 적합선을 그린 차트를 만들어 줘. 기울기와 R²도 알려 주고
한 문단으로 쉽게 설명해 줘.

R²가 낮게 나오면 "어떤 점 때문이냐"고 되물어, 아까 본 이상치와 연결해 본다.

정리 — 데이터가 모델을 만든다

오늘 손에 남길 한 문장은 이거다. 내가 준 데이터가 모델을 만들고, 데이터가 치우치면 결과도 치우친다. 회귀로 예측하고, 군집으로 묶고, 분류로 나누는 세 가지 일을 직접 가르쳐 보며 그 사실을 몸으로 확인했다.

분류를 소리로 해 봤으니, 다음 글에서는 같은 분류 원리를 이미지로 확장한다. 컴퓨터가 사진을 어떻게 "보는지", 그리고 분류에서 탐지, 분할로 어떻게 더 정밀해지는지 살펴본다.