Como funciona a colorização de mangá com IA
Por que escolhemos Google Gemini, como a divisão em imagens virtuais nasceu por necessidade, e o que separa a IA de nível editorial das ferramentas amadoras.
Publicado por Watashi Games · Março 2026
Por que apostamos no Google Gemini para colorização
Quando começamos a construir o Watashi Colorizer, avaliamos todos os modelos de IA disponíveis para colorização de imagens. Os colorizadores neurais tradicionais — aqueles treinados especificamente com mangá — produziam resultados planos e uniformes. Conseguiam colorir áreas mas não entendiam o contexto. Uma cena noturna e uma diurna recebiam o mesmo céu azul. A cor da roupa de um personagem era aleatória toda vez.
Os grandes modelos multimodais mudaram a equação. Os modelos Gemini do Google conseguem interpretar o conteúdo de uma imagem — identificar personagens, entender o contexto da cena, ler texto — e colorizar com base nessa compreensão. Quando você diz ao Gemini «este personagem tem cabelo vermelho e jaqueta azul», o modelo aplica essas cores porque entende a instrução semanticamente, não porque está combinando um padrão de pixels.
O Gemini também lida com texto nativamente. Ele pode ler diálogos, preservá-los durante a colorização e até traduzi-los para outros idiomas no mesmo passo. Para um editor, isso significou que uma única chamada de API podia colorizar uma página e traduzi-la simultaneamente — um fluxo de trabalho que antes exigia ferramentas separadas para cada etapa.
O nascimento da divisão em imagens virtuais
A divisão em imagens virtuais não foi planejada. Nasceu de uma falha de produção. Estávamos colorizando um capítulo de webtoon onde uma cena dramática se estendia por duas páginas — um personagem saltando de um painel no final da página 15 para um painel de aterrissagem no início da página 16. As duas páginas caíram em lotes de IA diferentes. O modelo coloriu a roupa do personagem de azul em um lote e de roxo no outro. A quebra de cor caiu bem no meio da ação.
A solução inicial foi simples: sobrepor lotes para que a última imagem do lote N aparecesse novamente no lote N+1 como referência de cor. Isso falhou espetacularmente. A IA reinterpretava as cores toda vez, produzindo duas colorizações diferentes do mesmo conteúdo. Tentamos mesclar as regiões sobrepostas, mas a IA desloca ligeiramente as posições dos elementos durante a colorização, fazendo com que qualquer mesclagem produza artefatos.
A solução real exigiu repensar o pipeline inteiro. Em vez de enviar páginas inteiras, dividimos as páginas em seus limites naturais de cena — os divisores pretos de painéis — e reagrupamos as faixas de arte resultantes por continuidade visual. O final da página 15 e o início da página 16 agora caem no mesmo lote porque o sistema reconhece que não há quebra de cena entre eles.
IA de nível editorial vs. IA de nível amador
A diferença entre colorização de IA amadora e de nível editorial se resume a consistência em escala. Uma ferramenta amadora que coloriza uma imagem lindamente é inútil para um capítulo de 60 páginas se produz cores diferentes em cada página. Nível editorial significa que a saída da página 1 e da página 60 parecem ter vindo do mesmo colorista.
Ferramentas amadoras também tipicamente ignoram as dimensões de saída. Elas redimensionam imagens para a resolução preferida do modelo e retornam o que a IA gera. Para publicação, a saída deve corresponder exatamente às dimensões de entrada — pixel por pixel. Nosso pipeline processa na resolução da IA mas mapeia o resultado de volta ao canvas original, preservando cada dimensão.
O controle de personagens é outra linha divisória. Ferramentas amadoras deixam a IA escolher cores livremente. Ferramentas editoriais impõem paletas específicas definidas pela equipe de produção. Quando você está publicando uma série de 200 capítulos, não pode deixar a IA improvisando cores de personagens. Elas devem corresponder ao guia de estilo toda vez.
Como a IA vê suas páginas de mangá
O modelo de IA recebe imagens com resolução máxima de 2048 pixels no lado mais longo. Uma página típica de webtoon de 1280×4000 é reduzida para aproximadamente 655×2048 para processamento. Nessa resolução, texto grande é legível mas texto pequeno — tabelas de estatísticas, tabuleiros de jogos, etiquetas minúsculas — fica borrado. O modelo tenta recriar o texto borrado e frequentemente gera caracteres ilegíveis.
É por isso que a preservação de texto existe como recurso opcional. Antes de enviar para a IA, o sistema detecta regiões de texto pequeno e denso usando análise de contraste local, mascara-as com valores de fundo desfocados, envia a imagem sem texto para a IA e depois cola o texto original de volta no resultado colorizado. A IA nunca vê o texto, então não pode alterá-lo.
Entender o que a IA vê também explica por que a divisão em imagens virtuais importa para a qualidade. Uma página de webtoon de 1280×8000 pixels é reduzida para 328×2048 — mal mais larga que uma captura de tela de celular. Dividir essa página em duas faixas de 1280×4000 dá à IA o dobro da resolução horizontal para trabalhar, produzindo detalhes notavelmente melhores na colorização.
Os limites da IA e como contornamos
A colorização com IA tem limites reais. O modelo ocasionalmente atribui cores erradas a personagens que não viu antes. Pode interpretar cenas escuras como mais claras do que o pretendido. Às vezes sangra cor de um painel para o fundo de um painel adjacente. Esses não são bugs que podemos corrigir com código melhor — são inerentes a como grandes modelos de linguagem processam informação visual.
Nossa abordagem para esses limites é em camadas. Paletas de personagens lidam com o problema de atribuição de cor dizendo ao modelo exatamente o que usar. O aprendizado de contexto lida com o problema de consistência ambiental lembrando cores específicas de cena. O modo de edição lida com todo o resto permitindo que o operador humano faça correções direcionadas. A IA faz 95% do trabalho; o humano refina os 5% restantes.
Essa abordagem humano-no-ciclo é a chave para qualidade de produção. A IA é rápida e consistente o suficiente para ser o colorista principal. O humano é preciso o suficiente para detectar e corrigir os casos onde a IA falha. Juntos, produzem capítulos indistinguíveis da colorização manual a uma fração do tempo e custo.
Para um mergulho técnico mais profundo na tecnologia de colorização com IA, leia nosso artigo explicativo detalhado em watashicolorizer.com.
Leia o guia completo →