AI 만화 채색의 원리
Google Gemini를 선택한 이유, 가상 이미지 분할이 필요에 의해 탄생한 과정, 퍼블리셔 등급 AI와 취미 등급 도구의 차이점.
Watashi Games 발행 · 2026년 3월
채색에 Google Gemini를 선택한 이유
Watashi Colorizer를 구축하기 시작했을 때, 이미지 채색을 위한 모든 가용 AI 모델을 평가했습니다. 전통적인 신경망 채색기 — 만화에 특화되어 훈련된 것들 — 는 평평하고 균일한 결과를 만들었습니다. 영역에 색을 입힐 수는 있었지만 맥락을 이해하지 못했습니다. 밤 장면이든 낮 장면이든 같은 파란 하늘이 됩니다. 캐릭터의 의상 색상은 매번 무작위였습니다.
대규모 멀티모달 모델이 상황을 바꿨습니다. Google의 Gemini 모델은 이미지 내용을 해석할 수 있습니다 — 캐릭터 식별, 장면 맥락 이해, 텍스트 읽기 — 그리고 그 이해에 기반하여 채색합니다. Gemini에게 “이 캐릭터는 빨간 머리와 파란 재킷을 입고 있다”고 알려주면, 모델은 픽셀 패턴을 매칭하는 것이 아니라 지시를 의미론적으로 이해하여 해당 색상을 적용합니다.
Gemini는 텍스트도 기본적으로 처리합니다. 대사를 읽고, 채색 중에 보존하며, 같은 패스에서 다른 언어로 번역까지 할 수 있습니다. 퍼블리셔에게 이는 한 번의 API 호출로 페이지를 채색하고 동시에 번역할 수 있다는 의미였습니다 — 이전에는 각 단계에 별도의 도구가 필요했던 워크플로입니다.
가상 이미지 분할의 탄생
가상 이미지 분할은 계획된 것이 아니었습니다. 프로덕션 실패에서 태어났습니다. 극적인 장면이 두 페이지에 걸쳐 펼쳐지는 웹툰 챕터를 채색하고 있었습니다 — 캐릭터가 15페이지 하단의 패널에서 16페이지 상단의 착지 패널로 뛰어오르는 장면입니다. 두 페이지가 다른 AI 배치에 들어갔습니다. 모델은 한 배치에서 캐릭터의 의상을 파란색으로, 다른 배치에서는 보라색으로 채색했습니다. 색상 단절이 액션의 한가운데에서 발생했습니다.
초기 수정은 간단했습니다: 배치를 겹쳐서 배치 N의 마지막 이미지를 배치 N+1에 색상 참조로 다시 포함시킵니다. 이것은 완전히 실패했습니다. AI는 매번 색상을 재해석하여 같은 콘텐츠에 대해 두 가지 다른 채색 결과를 생성했습니다. 겹치는 영역을 블렌딩하려 했지만, AI가 채색 중에 요소 위치를 약간 이동시키기 때문에 어떤 블렌딩이든 아티팩트를 만들었습니다.
진짜 해결책은 전체 파이프라인을 재고하는 것이었습니다. 전체 페이지를 보내는 대신, 자연스러운 장면 경계 — 검은 패널 구분선 — 에서 페이지를 분할하고, 결과 아트 밴드를 시각적 연속성에 따라 재그룹화했습니다. 15페이지 하단과 16페이지 상단은 시스템이 그 사이에 장면 전환이 없다고 인식하므로 같은 배치에 들어가게 되었습니다.
퍼블리셔 등급 vs 취미 등급 AI 채색
취미 등급과 퍼블리셔 등급 AI 채색의 차이는 대규모에서의 일관성으로 귀결됩니다. 한 장의 이미지를 아름답게 채색하는 취미 도구는 60페이지 챕터에서 매 페이지마다 다른 색상을 만들면 쓸모가 없습니다. 퍼블리셔 등급이란 1페이지와 60페이지의 출력이 같은 컬러리스트가 한 것처럼 보이는 것을 의미합니다.
취미 도구는 보통 출력 크기도 무시합니다. 이미지를 모델이 선호하는 해상도로 크기를 조정하고 AI가 생성한 것을 그대로 반환합니다. 출판에서는 출력이 입력 크기와 정확히 일치해야 합니다 — 픽셀 단위로. 우리의 파이프라인은 AI의 해상도에서 처리하지만 결과를 원래 캔버스에 다시 매핑하여 모든 크기를 보존합니다.
캐릭터 제어도 분기점입니다. 취미 도구는 AI가 자유롭게 색상을 선택하게 합니다. 퍼블리셔 도구는 프로덕션 팀이 정의한 특정 팔레트를 강제합니다. 200챕터의 시리즈를 출판할 때, AI가 캐릭터 색상을 즉흥적으로 정하게 할 수는 없습니다. 매번 스타일 가이드와 일치해야 합니다.
AI가 만화 페이지를 보는 방법
AI 모델은 가장 긴 변이 최대 2048픽셀인 해상도로 이미지를 받습니다. 1280×4000의 일반적인 웹툰 페이지는 처리를 위해 약 655×2048로 축소됩니다. 그 해상도에서 큰 텍스트는 읽을 수 있지만 작은 텍스트 — 스탯 테이블, 게임 보드, 작은 라벨 — 는 흐릿해집니다. 모델은 흐릿한 텍스트를 재현하려 하고 종종 깨진 문자를 생성합니다.
이것이 텍스트 보존이 옵트인 기능으로 존재하는 이유입니다. AI에 보내기 전에, 시스템은 로컬 대비 분석을 사용하여 작고 촘촘한 텍스트 영역을 감지하고, 흐릿한 배경으로 마스킹하고, 텍스트 없는 이미지를 AI에 보낸 다음, 채색된 결과 위에 원본 텍스트를 다시 붙여넣습니다. AI는 텍스트를 보지 못하므로 깨뜨릴 수 없습니다.
AI가 보는 것을 이해하면 가상 이미지 분할이 품질에 중요한 이유도 설명됩니다. 1280×8000 픽셀의 웹툰 페이지는 328×2048로 축소됩니다 — 스마트폰 스크린샷보다 간신히 넓은 정도입니다. 그 페이지를 두 개의 1280×4000 밴드로 분할하면 AI가 두 배의 수평 해상도로 작업하여 채색의 디테일이 눈에 띄게 향상됩니다.
AI의 한계와 극복 방법
AI 채색에는 실질적인 한계가 있습니다. 모델이 처음 보는 캐릭터에 잘못된 색상을 할당할 때가 있습니다. 어두운 장면을 의도보다 밝게 해석할 수 있습니다. 한 패널의 색상이 인접 패널의 배경으로 번지기도 합니다. 이것들은 더 나은 코드로 고칠 수 있는 버그가 아닙니다 — 대규모 언어 모델이 시각 정보를 처리하는 방식에 내재된 것입니다.
이러한 한계에 대한 우리의 접근은 다층적입니다. 캐릭터 팔레트는 모델에게 정확히 무엇을 사용할지 알려줌으로써 색상 할당 문제를 처리합니다. 컨텍스트 학습은 장면별 색상을 기억함으로써 환경 일관성 문제를 처리합니다. 편집 모드는 인간 운영자가 정밀한 수정을 할 수 있게 하여 나머지를 처리합니다. AI가 95%의 작업을 하고 인간이 나머지 5%를 다듬습니다.
이 휴먼인더루프 접근이 프로덕션 품질의 핵심입니다. AI는 주 컬러리스트로서 충분히 빠르고 일관적입니다. 인간은 AI가 부족한 부분을 포착하고 수정할 만큼 정밀합니다. 함께하면 시간과 비용의 극히 일부로 수동 채색과 구분할 수 없는 챕터를 만들어냅니다.