← Zurück zum Colorizer

Wie KI-Manga-Kolorierung funktioniert

Warum wir Google Gemini gewählt haben, wie virtuelles Bild-Splitting aus der Not geboren wurde und was verlegerische KI von Hobby-Tools unterscheidet.

Veröffentlicht von Watashi Games · März 2026


Warum wir auf Google Gemini für die Kolorierung gesetzt haben

Als wir mit dem Aufbau von Watashi Colorizer begannen, evaluierten wir jedes verfügbare KI-Modell für Bildkolorierung. Traditionelle neuronale Netzwerk-Kolorierungstools — die speziell auf Manga trainiert wurden — produzierten flache, einheitliche Ergebnisse. Sie konnten Bereiche einfärben, verstanden aber keinen Kontext. Eine Nachtszene und eine Tagszene bekamen denselben blauen Himmel. Die Kleidungsfarbe eines Charakters war jedes Mal zufällig.

Große multimodale Modelle änderten die Gleichung. Googles Gemini-Modelle können den Inhalt eines Bildes interpretieren — Charaktere identifizieren, Szenenkontext verstehen, Text lesen — und basierend auf diesem Verständnis kolorieren. Wenn Sie Gemini sagen „Dieser Charakter hat rote Haare und eine blaue Jacke“, wendet das Modell diese Farben an, weil es die Anweisung semantisch versteht, nicht weil es ein Pixelmuster abgleicht.

Gemini verarbeitet auch Text nativ. Es kann Dialoge lesen, sie während der Kolorierung erhalten und sie sogar in andere Sprachen im selben Durchgang übersetzen. Für einen Verleger bedeutete das, dass ein einziger API-Aufruf eine Seite kolorieren und gleichzeitig übersetzen konnte — ein Workflow, der zuvor separate Tools für jeden Schritt erforderte.

Die Geburt des virtuellen Bild-Splittings

Virtuelles Bild-Splitting war nicht geplant. Es entstand aus einem Produktionsfehler. Wir kolorierten ein Webtoon-Kapitel, in dem eine dramatische Szene zwei Seiten überspannte — ein Charakter, der von einem Panel am unteren Rand von Seite 15 zu einem Landungspanel am oberen Rand von Seite 16 sprang. Die beiden Seiten landeten in verschiedenen KI-Batches. Das Modell färbte das Outfit des Charakters in einem Batch blau und im anderen lila. Der Farbbruch fiel mitten in die Handlung.

Die erste Korrektur war einfach: Batches überlappen, sodass das letzte Bild von Batch N erneut in Batch N+1 als Farbreferenz erscheint. Dies scheiterte spektakulär. Die KI reinterpretierte die Farben jedes Mal und produzierte zwei verschiedene Kolorierungen desselben Inhalts. Wir versuchten, die überlappenden Bereiche zu verschmelzen, aber die KI verschiebt Elemente während der Kolorierung leicht, sodass jede Verschmelzung Artefakte erzeugt.

Die echte Lösung erforderte ein Umdenken der gesamten Pipeline. Anstatt ganze Seiten zu senden, teilen wir Seiten an ihren natürlichen Szenengrenzen auf — den schwarzen Panel-Trennlinien — und gruppieren die resultierenden Kunstbänder nach visueller Kontinuität um. Das untere Ende von Seite 15 und das obere Ende von Seite 16 landen jetzt im selben Batch, weil das System erkennt, dass es keinen Szenenbruch zwischen ihnen gibt.

KI-Kolorierung auf Verleger-Niveau vs. Hobby-Niveau

Der Unterschied zwischen Hobby-Niveau und Verleger-Niveau KI-Kolorierung kommt auf Konsistenz im großen Maßstab hinaus. Ein Hobby-Tool, das ein einzelnes Bild wunderschön koloriert, ist nutzlos für ein 60-seitiges Kapitel, wenn es auf jeder Seite andere Farben produziert. Verleger-Niveau bedeutet, dass die Ausgabe von Seite 1 und Seite 60 aussehen, als kämen sie vom selben Koloristen.

Hobby-Tools ignorieren typischerweise auch die Ausgabemaße. Sie skalieren Bilder auf die bevorzugte Modellauflösung und geben zurück, was die KI generiert. Für die Veröffentlichung muss die Ausgabe exakt den Eingabemaßen entsprechen — Pixel für Pixel. Unsere Pipeline verarbeitet in der KI-Auflösung, bildet das Ergebnis aber auf die Originalleinwand zurück und bewahrt jede Dimension.

Charakterkontrolle ist eine weitere Trennlinie. Hobby-Tools lassen die KI frei Farben wählen. Verleger-Tools erzwingen spezifische Paletten, die vom Produktionsteam definiert wurden. Wenn Sie eine Serie mit 200 Kapiteln veröffentlichen, können Sie nicht zulassen, dass die KI Charakterfarben improvisiert. Sie müssen jedes Mal dem Styleguide entsprechen.

Wie die KI Ihre Manga-Seiten sieht

Das KI-Modell empfängt Bilder bei einer maximalen Auflösung von 2048 Pixeln auf der längsten Seite. Eine typische Webtoon-Seite mit 1280×4000 wird auf etwa 655×2048 für die Verarbeitung herunterskaliert. Bei dieser Auflösung ist großer Text lesbar, aber kleiner Text — Statistiktabellen, Spielbretter, winzige Beschriftungen — wird verschwommen. Das Modell versucht, verschwommenen Text nachzubilden und erzeugt oft verstümmelte Zeichen.

Deshalb existiert Texterhaltung als opt-in-Funktion. Vor dem Senden an die KI erkennt das System kleine, dichte Textbereiche mittels lokaler Kontrastanalyse, maskiert sie mit verwaschenem Hintergrund, sendet das textfreie Bild an die KI und fügt dann den Originaltext auf das kolorierte Ergebnis zurück. Die KI sieht den Text nie und kann ihn daher nicht verstümmeln.

Zu verstehen, was die KI sieht, erklärt auch, warum virtuelles Bild-Splitting für die Qualität wichtig ist. Eine 1280×8000 Pixel Webtoon-Seite wird auf 328×2048 skaliert — kaum breiter als ein Smartphone-Screenshot. Diese Seite in zwei 1280×4000 Bänder aufzuteilen gibt der KI die doppelte horizontale Auflösung, was spürbar bessere Details in der Kolorierung produziert.

Die Grenzen der KI und wie wir sie umgehen

KI-Kolorierung hat reale Grenzen. Das Modell weist gelegentlich Charakteren, die es noch nicht gesehen hat, falsche Farben zu. Es kann dunkle Szenen heller als beabsichtigt interpretieren. Manchmal lässt es Farbe von einem Panel in den Hintergrund eines benachbarten Panels überbluten. Das sind keine Bugs, die wir mit besserem Code beheben können — es sind inhärente Eigenschaften der Art, wie große Sprachmodelle visuelle Informationen verarbeiten.

Unser Ansatz zu diesen Grenzen ist geschichtet. Charakterpaletten lösen das Farbzuweisungsproblem, indem sie dem Modell exakt sagen, was es verwenden soll. Kontextlernen löst das Umgebungskonsistenzproblem, indem es szenenspezifische Farben speichert. Der Bearbeitungsmodus löst alles andere, indem er dem menschlichen Bediener ermöglicht, gezielte Korrekturen vorzunehmen. Die KI erledigt 95 % der Arbeit; der Mensch verfeinert die verbleibenden 5 %.

Dieser Mensch-in-der-Schleife-Ansatz ist der Schlüssel zur Produktionsqualität. Die KI ist schnell und konsistent genug, um der primäre Kolorist zu sein. Der Mensch ist präzise genug, um die Fälle zu erkennen und zu korrigieren, in denen die KI versagt. Zusammen produzieren sie Kapitel, die von manueller Kolorierung nicht zu unterscheiden sind — bei einem Bruchteil der Zeit und Kosten.

Für einen tieferen technischen Einblick in die KI-Kolorierungstechnologie lesen Sie unseren detaillierten Erklärartikel auf watashicolorizer.com.

Den vollständigen Leitfaden lesen →