LLM으로 이미지/음성/문서 다루기 — 멀티모달 작업 책상

앞 글까지는 LLM(Large Language Model: 대규모 언어 모델)에게 주로 글을 시켰다. 그런데 사실 사진도, 표도, PDF 문서도, 음성도 올릴 수 있다. 그래서 오늘의 한 문장은 이거다. LLM은 대화 상대가 아니라, 자료를 올려놓고 일을 시키는 작업 책상이다.

어제 만진 생성 AI가 "새로 만들기"였다면, 오늘은 반대다. 이미 있는 것에서 뽑아내기, 즉 이해와 추출이다. 같은 모델이 입력 형태에 따라 전혀 다른 일을 한다.

직접 해 보기 ① 사진을 읽어 표로

영수증이나 도표, 화면 캡처 같은 이미지를 한 장 준비한다. Claude에 올리고 이렇게 시킨다.

"이 영수증에서 품목과 금액만 표로 뽑아 줘."
"이 그래프가 무엇을 말하는지 3줄로 설명하고, 가장 큰 변화 지점을 짚어 줘."

사진 속 글자와 숫자를 읽어 구조화된 정보로 바꿔 준다. 손으로 옮겨 적던 일이 한 번에 끝난다.

직접 해 보기 ② 긴 문서를 근거째 정리

이번엔 PDF 자료를 올린다. 보고서든 매뉴얼이든 길수록 효과가 크다.

"이 문서를 한 페이지로 요약하고, 핵심 주장 3개와 그 근거를 표로 정리해 줘."
후속으로 "○○에 대한 부분은 문서 어디에 나오는지 인용해 줘."

여기서 중요한 습관 하나. 답의 근거가 문서 어디인지 확인하는 것이다. 이 습관이 다음 글의 RAG(원문에 근거해 답하게 하기)로 자연스럽게 이어진다.

직접 해 보기 ③ 음성을 글로, 글을 정리로

소리도 작업 책상에 올릴 수 있다. 짧은 회의 녹음이나 음성 메모를 준비하자.

STT(Speech-to-Text: 음성 인식)로 음성을 글로 전사한다 (AssemblyAI 같은 음성 인식 데모).
전사된 텍스트를 Claude에 붙여 "이 회의록을 5줄로 요약하고, 할 일을 담당과 기한이 들어간 표로 뽑아 줘."

소리에서 글로(STT), 글에서 정리로(LLM). 두 단계가 이어지면 한 시간짜리 회의가 몇 줄의 할 일 목록으로 정리된다. 한 가지 주의, 타인의 개인정보나 민감한 자료는 올리지 않는다.

정리 — LLM은 멀티모달 작업 책상

오늘의 한 문장. LLM은 글만 다루는 게 아니라 사진/문서/음성을 이해하고 추출하는 작업 책상이다. 특히 문서를 근거로 답하게 하면 환각이 줄어든다.

바로 그 점에서 다음 글이 이어진다. 내 문서를 근거로 답하게 만들어 환각을 줄이고 출처를 붙이는 법, RAG다.

09. LLM으로 이미지/음성/문서 — 작업 책상이 된 AI

직접 해 보기 ① 사진을 읽어 표로

직접 해 보기 ② 긴 문서를 근거째 정리

직접 해 보기 ③ 음성을 글로, 글을 정리로

정리 — LLM은 멀티모달 작업 책상

NeuTeam AI