하루 동안 꽤 많은 AI를 만졌다. 숫자를 예측하고, 비슷한 걸 묶고, 사진을 알아보고, 그림을 만들고, 목소리를 합성하고, 곡을 짓고, 그것들을 한 줄로 이었다. 종류가 많아 헷갈릴 만하지만, 사실 전부 같은 틀 하나로 정리된다. 무엇을 넣으면(입력) 무엇이 나오나(출력). 오늘 본 AI를 이 지도 한 장에 얹어 보자.

오늘의 AI를 한 장의 지도로

body-2

위 지도는 오늘 만진 도구들을 "입력 → 출력"으로 정리한 것이다. 사진을 넣으면 라벨이나 위치가 나오고(분류/탐지), 글을 넣으면 그림이나 목소리가 나오고(이미지 생성, 음성 합성(TTS(Text-to-Speech: 음성 합성))), 목소리를 넣으면 글이 나온다(음성 인식(STT(Speech-to-Text: 음성 인식))). 형태는 제각각이지만 전부 "넣으면 나오는 함수"라는 한 뿌리다.

지도를 그리다 보면 한 가지가 눈에 띈다. 같은 출력(예: 이미지)을 만드는 도구가 여러 개라는 점이다. 그래서 중요한 건 "어떤 도구가 제일 좋냐"가 아니라 용도에 맞게 고르는 눈이다. 빠른 초안엔 가벼운 도구, 고품질 한 컷엔 무거운 도구, 편집엔 편집 특화 도구. 고르는 것이 곧 실력이다.

직접 만들어 봤기에 진짜인 이야기 — 윤리

body-1

오늘 우리는 10초 녹음으로 목소리를 복제했다. 내 목소리였으니 괜찮았다. 그런데 그게 타인의 목소리나 얼굴이라면 어떨까. 동의 없는 합성이 바로 딥페이크이고, 보이스피싱의 도구가 된다. 기술이 쉬워질수록 "누구의 것을, 동의를 받고" 라는 질문이 무거워진다.

저작권도 마찬가지다. 특정 화풍이나 곡 스타일을 흉내 낸 생성물의 권리는 누구에게 있을까. 상업적으로 써도 되는지는 서비스마다 조건이 다르다. 그리고 점점 정교해지는 생성물을 우리는 어떻게 진짜와 구별할까. 워터마크와 출처 표기가 왜 필요한지가 여기서 나온다.

이 물음들엔 정답이 하나로 정해져 있지 않다. 다만 직접 만들어 봤기 때문에 이 토론이 막연한 걱정이 아니라 구체적인 내 일이 된다. 만들 줄 아는 사람이 그 한계와 위험도 가장 잘 안다.

정리 — 입력이 결과를 정한다

오늘 손에 남길 한 문장. AI는 입력에서 출력으로 가는 함수이고, 무엇을 넣느냐(맥락)가 결과를 정한다. 도구가 아무리 늘어도 이 틀은 변하지 않는다.

여기까지가 1일차, "보고 듣고 만드는 AI"였다. 내일(2일차)부터는 요즘 모두가 쓰는 그 AI, LLM(Large Language Model: 대규모 언어 모델)이 어떻게 생각하고 일하는지로 들어간다. 첫 시작은 "LLM은 무엇을 보고 답하는가", 즉 컨텍스트다.