← Retour au Colorizer

Comment fonctionne la colorisation IA de mangas

Pourquoi nous avons choisi Google Gemini, comment le découpage virtuel des images est né par nécessité, et ce qui distingue l’IA de niveau éditeur des outils amateurs.

Publié par Watashi Games · Mars 2026


Pourquoi nous avons misé sur Google Gemini pour la colorisation

Quand nous avons commencé à construire Watashi Colorizer, nous avons évalué chaque modèle IA disponible pour la colorisation d’images. Les coloriseurs traditionnels à réseaux de neurones — ceux entraînés spécifiquement sur les mangas — produisaient des résultats plats et uniformes. Ils pouvaient teinter des zones mais ne comprenaient pas le contexte. Une scène de nuit et une scène de jour recevaient le même ciel bleu. La couleur des vêtements d’un personnage était aléatoire à chaque fois.

Les grands modèles multimodaux ont changé la donne. Les modèles Google Gemini peuvent interpréter le contenu d’une image — identifier les personnages, comprendre le contexte de la scène, lire le texte — et coloriser en s’appuyant sur cette compréhension. Quand vous dites à Gemini « ce personnage a les cheveux roux et une veste bleue », le modèle applique ces couleurs car il comprend l’instruction sémantiquement, pas parce qu’il fait correspondre un motif de pixels.

Gemini gère également le texte nativement. Il peut lire les dialogues, les préserver pendant la colorisation, et même les traduire dans d’autres langues dans la même passe. Pour un éditeur, cela signifiait qu’un seul appel API pouvait coloriser une page et la traduire simultanément — un flux de travail qui nécessitait auparavant des outils séparés pour chaque étape.

La naissance du découpage virtuel des images

Le découpage virtuel des images n’était pas prévu. Il est né d’un échec de production. Nous colorisions un chapitre de webtoon où une scène dramatique s’étendait sur deux pages — un personnage sautant d’une case en bas de la page 15 vers une case d’atterrissage en haut de la page 16. Les deux pages se sont retrouvées dans des lots IA différents. Le modèle a coloré la tenue du personnage en bleu dans un lot et en violet dans l’autre. La rupture de couleur tombait en plein milieu de l’action.

Le correctif initial était simple : chevaucher les lots pour que la dernière image du lot N apparaisse à nouveau dans le lot N+1 comme référence de couleur. Cela a échoué de manière spectaculaire. L’IA réinterprétait les couleurs à chaque fois, produisant deux colorisations différentes du même contenu. Nous avons essayé de fusionner les régions de chevauchement, mais l’IA déplace légèrement les éléments pendant la colorisation, rendant toute fusion source d’artefacts.

La vraie solution a nécessité de repenser l’ensemble du pipeline. Au lieu d’envoyer des pages entières, nous découpons les pages à leurs frontières de scène naturelles — les séparateurs de cases noirs — et regroupons les bandes artistiques résultantes par continuité visuelle. Le bas de la page 15 et le haut de la page 16 se retrouvent maintenant dans le même lot car le système reconnaît qu’il n’y a pas de coupure de scène entre eux.

Colorisation IA de niveau éditeur vs niveau amateur

La différence entre une colorisation IA amateur et de niveau éditeur se résume à la cohérence à grande échelle. Un outil amateur qui colorise magnifiquement une seule image est inutile pour un chapitre de 60 pages s’il produit des couleurs différentes à chaque page. Le niveau éditeur signifie que le résultat de la page 1 et de la page 60 semblent provenir du même coloriste.

Les outils amateurs ignorent aussi généralement les dimensions de sortie. Ils redimensionnent les images à la résolution préférée du modèle et retournent ce que l’IA génère. Pour la publication, le résultat doit correspondre exactement aux dimensions d’entrée — pixel pour pixel. Notre pipeline traite à la résolution de l’IA mais projette le résultat sur le canevas d’origine, préservant chaque dimension.

Le contrôle des personnages est un autre point de distinction. Les outils amateurs laissent l’IA choisir librement les couleurs. Les outils de niveau éditeur imposent des palettes spécifiques définies par l’équipe de production. Quand vous publiez une série de 200 chapitres, vous ne pouvez pas laisser l’IA improviser les couleurs des personnages. Elles doivent correspondre à la charte graphique à chaque fois.

Comment l’IA voit vos pages de manga

Le modèle IA reçoit les images à une résolution maximale de 2048 pixels sur le côté le plus long. Une page de webtoon typique à 1280×4000 est réduite à environ 655×2048 pour le traitement. À cette résolution, le gros texte est lisible mais le petit texte — tables de statistiques, plateaux de jeu, petites étiquettes — devient flou. Le modèle essaie de recréer le texte flou et génère souvent des caractères brouillés.

C’est pourquoi la préservation du texte existe en tant que fonctionnalité optionnelle. Avant l’envoi à l’IA, le système détecte les petites régions de texte dense par analyse de contraste local, les masque avec l’arrière-plan flouté, envoie l’image sans texte à l’IA, puis recolle le texte original sur le résultat colorisé. L’IA ne voit jamais le texte, elle ne peut donc pas le brouiller.

Comprendre ce que l’IA voit explique aussi pourquoi le découpage virtuel des images est important pour la qualité. Une page de webtoon de 1280×8000 pixels est réduite à 328×2048 — à peine plus large qu’une capture d’écran de smartphone. Découper cette page en deux bandes de 1280×4000 donne à l’IA le double de la résolution horizontale, produisant des détails nettement meilleurs dans la colorisation.

Les limites de l’IA et comment nous les contournons

La colorisation IA a de vraies limites. Le modèle attribue parfois de mauvaises couleurs aux personnages qu’il n’a jamais vus. Il peut interpréter des scènes sombres comme plus claires que prévu. Il fait parfois déborder les couleurs d’une case sur l’arrière-plan d’une case adjacente. Ce ne sont pas des bugs que nous pouvons corriger avec un meilleur code — ce sont des caractéristiques inhérentes à la façon dont les grands modèles de langage traitent l’information visuelle.

Notre approche face à ces limites est stratifiée. Les palettes de personnages gèrent le problème d’attribution des couleurs en indiquant au modèle exactement quoi utiliser. L’apprentissage contextuel gère le problème de cohérence des environnements en mémorisant les couleurs spécifiques aux scènes. Le mode édition gère tout le reste en permettant à l’opérateur humain de donner des corrections ciblées. L’IA fait 95 % du travail ; l’humain affine les 5 % restants.

Cette approche avec un humain dans la boucle est la clé de la qualité de production. L’IA est assez rapide et cohérente pour être le coloriste principal. L’humain est assez précis pour repérer et corriger les cas où l’IA faillit. Ensemble, ils produisent des chapitres indiscernables d’une colorisation manuelle, pour une fraction du temps et du coût.

Pour un approfondissement technique de la technologie de colorisation IA, lisez notre article détaillé sur watashicolorizer.com.

Lire le guide complet →