← Volver al Colorizer

Cómo funciona la colorización de manga con IA

Por qué elegimos Google Gemini, cómo la división en imágenes virtuales nació por necesidad, y qué separa la IA de nivel editorial de las herramientas amateur.

Publicado por Watashi Games · Marzo 2026


Por qué apostamos por Google Gemini para la colorización

Cuando empezamos a construir Watashi Colorizer, evaluamos todos los modelos de IA disponibles para colorización de imágenes. Los colorizadores neuronales tradicionales — los entrenados específicamente con manga — producían resultados planos y uniformes. Podían teñir áreas pero no entendían el contexto. Una escena nocturna y una diurna recibían el mismo cielo azul. El color de la ropa de un personaje era aleatorio cada vez.

Los grandes modelos multimodales cambiaron la ecuación. Los modelos Gemini de Google pueden interpretar el contenido de una imagen — identificar personajes, entender el contexto de la escena, leer texto — y colorizar basados en esa comprensión. Cuando le dices a Gemini «este personaje tiene cabello rojo y chaqueta azul», el modelo aplica esos colores porque entiende la instrucción semánticamente, no porque está coincidiendo con un patrón de píxeles.

Gemini también maneja texto de forma nativa. Puede leer diálogos, preservarlos durante la colorización e incluso traducirlos a otros idiomas en el mismo paso. Para un editor, esto significaba que una sola llamada a la API podía colorizar una página y traducirla simultáneamente — un flujo de trabajo que antes requería herramientas separadas para cada paso.

El nacimiento de la división en imágenes virtuales

La división en imágenes virtuales no fue planificada. Nació de un fallo de producción. Estábamos colorizando un capítulo de webtoon donde una escena dramática se extendía entre dos páginas — un personaje saltando desde un panel al final de la página 15 hacia un panel de aterrizaje al inicio de la página 16. Las dos páginas cayeron en lotes de IA diferentes. El modelo coloreó la ropa del personaje de azul en un lote y de púrpura en el otro. La ruptura de color cayó justo en medio de la acción.

La solución inicial fue simple: superponer lotes para que la última imagen del lote N apareciera de nuevo en el lote N+1 como referencia de color. Esto falló espectacularmente. La IA reinterpretaba los colores cada vez, produciendo dos colorizaciones diferentes del mismo contenido. Intentamos mezclar las regiones superpuestas, pero la IA desplaza ligeramente las posiciones de los elementos durante la colorización, haciendo que cualquier mezcla produzca artefactos.

La solución real requirió repensar el pipeline completo. En lugar de enviar páginas completas, dividimos las páginas en sus límites naturales de escena — los divisores negros de paneles — y reagrupamos las bandas de arte resultantes por continuidad visual. El final de la página 15 y el inicio de la página 16 ahora caen en el mismo lote porque el sistema reconoce que no hay ruptura de escena entre ellos.

IA de nivel editorial vs. IA de nivel amateur

La diferencia entre colorización de IA amateur y de nivel editorial se reduce a consistencia a escala. Una herramienta amateur que coloriza una imagen maravillosamente es inútil para un capítulo de 60 páginas si produce colores diferentes en cada página. Nivel editorial significa que la salida de la página 1 y la página 60 parecen provenir del mismo colorista.

Las herramientas amateur también ignoran típicamente las dimensiones de salida. Redimensionan las imágenes a la resolución preferida del modelo y devuelven lo que la IA genera. Para publicación, la salida debe coincidir exactamente con las dimensiones de entrada — píxel por píxel. Nuestro pipeline procesa a la resolución de la IA pero mapea el resultado de vuelta al lienzo original, preservando cada dimensión.

El control de personajes es otra línea divisoria. Las herramientas amateur dejan que la IA elija colores libremente. Las herramientas editoriales imponen paletas específicas definidas por el equipo de producción. Cuando estás publicando una serie de 200 capítulos, no puedes dejar que la IA improvise los colores de los personajes. Deben coincidir con la guía de estilo cada vez.

Cómo ve la IA tus páginas de manga

El modelo de IA recibe imágenes con una resolución máxima de 2048 píxeles en el lado más largo. Una página típica de webtoon de 1280×4000 se escala a aproximadamente 655×2048 para su procesamiento. A esa resolución, el texto grande es legible pero el texto pequeño — tablas de estadísticas, tableros de juego, etiquetas diminutas — se vuelve borroso. El modelo intenta recrear el texto borroso y a menudo genera caracteres ilegibles.

Por eso existe la preservación de texto como función opcional. Antes de enviar a la IA, el sistema detecta regiones de texto pequeño y denso usando análisis de contraste local, las enmascara con valores de fondo difuminados, envía la imagen sin texto a la IA y luego pega el texto original de vuelta sobre el resultado colorizado. La IA nunca ve el texto, así que no puede alterarlo.

Entender lo que ve la IA también explica por qué la división en imágenes virtuales importa para la calidad. Una página de webtoon de 1280×8000 píxeles se escala a 328×2048 — apenas más ancha que una captura de pantalla de teléfono. Dividir esa página en dos bandas de 1280×4000 le da a la IA el doble de resolución horizontal para trabajar, produciendo detalles notablemente mejores en la colorización.

Los límites de la IA y cómo los solucionamos

La colorización con IA tiene límites reales. El modelo ocasionalmente asigna colores incorrectos a personajes que no ha visto antes. Puede interpretar escenas oscuras como más claras de lo previsto. A veces sangra color de un panel al fondo de un panel adyacente. Estos no son errores que podamos solucionar con mejor código — son inherentes a cómo los grandes modelos de lenguaje procesan información visual.

Nuestro enfoque para estos límites es por capas. Las paletas de personajes manejan el problema de asignación de color al decirle al modelo exactamente qué usar. El aprendizaje de contexto maneja el problema de consistencia ambiental al recordar colores específicos de escena. El modo de edición maneja todo lo demás al permitir que el operador humano dé correcciones dirigidas. La IA hace el 95% del trabajo; el humano refina el 5% restante.

Este enfoque de humano-en-el-ciclo es clave para la calidad de producción. La IA es lo suficientemente rápida y consistente para ser el colorista principal. El humano es lo suficientemente preciso para detectar y corregir los casos donde la IA falla. Juntos, producen capítulos indistinguibles de la colorización manual a una fracción del tiempo y costo.

Para una profundización técnica más detallada sobre la tecnología de colorización con IA, lee nuestro artículo explicativo en watashicolorizer.com.

Leer la guía completa →