← Назад к Colorizer

Как работает ИИ-колоризация манги

Почему мы выбрали Google Gemini, как виртуальное разделение изображений родилось из необходимости и что отличает ИИ издательского уровня от любительских инструментов.

Опубликовано Watashi Games · Март 2026


Почему мы сделали ставку на Google Gemini для колоризации

Когда мы начали строить Watashi Colorizer, мы оценили каждую доступную ИИ-модель для колоризации изображений. Традиционные колоризаторы на нейронных сетях — обученные специально на манге — давали плоские, однообразные результаты. Они могли тонировать области, но не понимали контекст. Ночная сцена и дневная получали одинаковое голубое небо. Цвет одежды персонажа был случайным каждый раз.

Большие мультимодальные модели изменили расклад. Модели Google Gemini могут интерпретировать содержимое изображения — идентифицировать персонажей, понимать контекст сцены, читать текст — и колоризировать на основе этого понимания. Когда вы говорите Gemini «у этого персонажа рыжие волосы и синяя куртка», модель применяет эти цвета, потому что понимает инструкцию семантически, а не потому что сопоставляет пиксельный паттерн.

Gemini также нативно работает с текстом. Он может читать диалоги, сохранять их при колоризации и даже переводить на другие языки за тот же проход. Для издателя это означало, что один API-вызов мог колоризировать страницу и одновременно перевести её — рабочий процесс, который ранее требовал отдельных инструментов для каждого шага.

Рождение виртуального разделения изображений

Виртуальное разделение изображений не было запланировано. Оно родилось из производственной неудачи. Мы колоризировали главу вебтуна, в которой драматичная сцена охватывала две страницы — персонаж прыгал из панели внизу страницы 15 в панель приземления вверху страницы 16. Две страницы оказались в разных пакетах ИИ. Модель окрасила костюм персонажа в синий в одном пакете и в фиолетовый в другом. Разрыв цвета пришёлся прямо на середину действия.

Первоначальное исправление было простым: перекрыть пакеты так, чтобы последнее изображение пакета N повторялось в пакете N+1 как цветовой референс. Это провалилось катастрофически. ИИ каждый раз переинтерпретировал цвета, создавая две разные колоризации одного контента. Мы пробовали смешивать перекрывающиеся области, но ИИ слегка сдвигает элементы при колоризации, и любое слияние создаёт артефакты.

Настоящее решение потребовало переосмысления всего конвейера. Вместо отправки целых страниц мы разбиваем страницы по их естественным границам сцен — чёрным разделителям панелей — и перегруппировываем полученные арт-полосы по визуальной непрерывности. Низ страницы 15 и верх страницы 16 теперь попадают в один пакет, потому что система распознаёт, что между ними нет разрыва сцены.

ИИ-колоризация издательского уровня против любительского

Разница между любительской и издательской ИИ-колоризацией сводится к согласованности в масштабе. Любительский инструмент, который великолепно колоризирует одно изображение, бесполезен для главы из 60 страниц, если он даёт разные цвета на каждой странице. Издательский уровень означает, что результат со страницы 1 и страницы 60 выглядит так, будто их раскрасил один колорист.

Любительские инструменты также обычно игнорируют размеры вывода. Они масштабируют изображения до предпочтительного разрешения модели и возвращают то, что ИИ сгенерировал. Для публикации результат должен точно соответствовать размерам исходника — пиксель в пиксель. Наш конвейер обрабатывает в разрешении ИИ, но проецирует результат обратно на исходный холст, сохраняя каждый размер.

Контроль персонажей — ещё одна разделительная линия. Любительские инструменты позволяют ИИ свободно выбирать цвета. Издательские инструменты принудительно задают конкретные палитры, определённые производственной командой. Когда вы издаёте серию из 200 глав, вы не можете позволить ИИ импровизировать с цветами персонажей. Они должны соответствовать стайлгайду каждый раз.

Как ИИ видит ваши страницы манги

ИИ-модель получает изображения с максимальным разрешением 2048 пикселей по длинной стороне. Типичная страница вебтуна 1280×4000 уменьшается примерно до 655×2048 для обработки. При таком разрешении крупный текст читаем, но мелкий — таблицы статистик, игровые поля, крошечные подписи — становится размытым. Модель пытается воссоздать размытый текст и часто генерирует искажённые символы.

Именно поэтому сохранение текста существует как опциональная функция. Перед отправкой в ИИ система обнаруживает мелкие, плотные текстовые области с помощью анализа локального контраста, маскирует их размытым фоном, отправляет изображение без текста в ИИ, а затем вставляет оригинальный текст обратно на колоризированный результат. ИИ никогда не видит текст и поэтому не может его исказить.

Понимание того, что видит ИИ, также объясняет, почему виртуальное разделение изображений важно для качества. Страница вебтуна 1280×8000 пикселей уменьшается до 328×2048 — едва шире скриншота смартфона. Разделение этой страницы на две полосы 1280×4000 даёт ИИ вдвое большее горизонтальное разрешение, что даёт заметно лучшую детализацию колоризации.

Ограничения ИИ и как мы их обходим

У ИИ-колоризации есть реальные ограничения. Модель иногда назначает неправильные цвета персонажам, которых она раньше не видела. Она может интерпретировать тёмные сцены как более светлые, чем задумано. Иногда цвет из одной панели перетекает на фон соседней. Это не баги, которые можно исправить лучшим кодом — это свойства, присущие способу обработки визуальной информации большими языковыми моделями.

Наш подход к этим ограничениям многоуровневый. Палитры персонажей решают проблему назначения цветов, указывая модели точные значения. Обучение контексту решает проблему согласованности окружения, запоминая цвета конкретных сцен. Режим редактирования решает всё остальное, позволяя оператору-человеку давать точечные исправления. ИИ делает 95% работы; человек дорабатывает оставшиеся 5%.

Этот подход с человеком в цикле — ключ к производственному качеству. ИИ достаточно быстр и согласован, чтобы быть основным колористом. Человек достаточно точен, чтобы ловить и исправлять случаи, когда ИИ ошибается. Вместе они создают главы, неотличимые от ручной колоризации, за долю времени и стоимости.

Для более глубокого технического погружения в технологию ИИ-колоризации прочитайте наш подробный разбор на watashicolorizer.com.

Читать полное руководство →