AI漫画着色の仕組み
Google Geminiを選んだ理由、仮想画像分割が必要性から生まれた経緯、そして出版グレードのAIとホビーグレードのツールを分けるもの。
Watashi Games 発行 · 2026年3月
着色に Google Gemini を選んだ理由
Watashi Colorizer の構築を始めたとき、画像着色のために利用可能なすべてのAIモデルを評価しました。従来のニューラルネットワーク着色ツール — 漫画専用に訓練されたもの — は平坦で均一な結果を生成しました。エリアに色を付けることはできましたが、コンテキストを理解できませんでした。夜のシーンも昼のシーンも同じ青空になります。キャラクターの服の色は毎回ランダムでした。
大規模マルチモーダルモデルが状況を変えました。Google の Gemini モデルは画像の内容を解釈でき — キャラクターの識別、シーンのコンテキスト理解、テキストの読み取り — その理解に基づいて着色します。Gemini に「このキャラクターは赤い髪と青いジャケット」と伝えると、モデルはピクセルパターンをマッチングするのではなく、意味的に指示を理解してそれらの色を適用します。
Gemini はテキストもネイティブに処理します。セリフを読み取り、着色中にそれを保持し、同じパスで他の言語に翻訳することもできます。出版社にとって、これは1回のAPI呼び出しでページの着色と翻訳を同時に行えることを意味しました — 以前は各ステップに別々のツールが必要だったワークフローです。
仮想画像分割の誕生
仮想画像分割は計画されたものではありませんでした。プロダクション上の失敗から生まれました。ドラマチックなシーンが2ページにまたがるウェブトゥーンのチャプターを着色していました — キャラクターが15ページ下部のパネルから16ページ上部の着地パネルにジャンプするシーンです。2つのページが異なるAIバッチに入り、モデルは一方のバッチではキャラクターの衣装を青に、もう一方では紫に着色しました。色の断絶がアクションの真ん中で起きました。
最初の修正はシンプルでした:バッチを重ねて、バッチNの最後の画像をバッチN+1にカラーリファレンスとして再度含めます。これは壮大に失敗しました。AIは毎回色を再解釈し、同じコンテンツに対して2つの異なる着色結果を生成しました。重複領域をブレンドすることも試みましたが、AIは着色中に要素の位置をわずかにシフトするため、どのブレンドもアーティファクトを生みました。
本当の解決策はパイプライン全体の再考が必要でした。ページ全体を送る代わりに、自然なシーンの境界 — 黒いパネル区切り線 — でページを分割し、結果のアートバンドを視覚的連続性に基づいて再グループ化しました。15ページの下部と16ページの上部は、システムがそれらの間にシーンの切れ目がないことを認識するため、同じバッチに入るようになりました。
出版グレード vs ホビーグレードのAI着色
ホビーグレードと出版グレードのAI着色の違いは、スケールでの一貫性に集約されます。1枚の画像を美しく着色するホビーツールは、60ページのチャプターでページごとに異なる色を生成するなら役に立ちません。出版グレードとは、1ページ目と60ページ目の出力が同じカラリストによるもののように見えることです。
ホビーツールは通常、出力寸法も無視します。画像をモデルの推奨解像度にリサイズし、AIが生成したものをそのまま返します。出版では、出力は入力寸法と正確に一致しなければなりません — ピクセル単位で。私たちのパイプラインはAIの解像度で処理しますが、結果を元のキャンバスにマッピングし直し、すべての寸法を保持します。
キャラクター制御もまた分岐点です。ホビーツールはAIに自由に色を選ばせます。出版ツールはプロダクションチームが定義した特定のパレットを強制します。200チャプターのシリーズを出版している場合、AIにキャラクターの色を即興で決めさせるわけにはいきません。毎回スタイルガイドに一致しなければなりません。
AIがあなたの漫画ページをどう見ているか
AIモデルは最長辺が最大2048ピクセルの解像度で画像を受け取ります。典型的な1280×4000のウェブトゥーンページは、処理のために約655×2048にスケールダウンされます。その解像度では、大きなテキストは読めますが、小さなテキスト — ステータステーブル、ゲームボード、小さなラベル — はぼやけます。モデルはぼやけたテキストを再現しようとし、しばしば文字化けした文字を生成します。
これがテキスト保持がオプトイン機能として存在する理由です。AIに送る前に、システムはローカルコントラスト分析を使用して小さく密なテキスト領域を検出し、ぼかした背景でマスクし、テキストなしの画像をAIに送り、着色結果の上にオリジナルテキストを貼り戻します。AIはテキストを見ないので、文字化けさせることができません。
AIが見ているものを理解すると、仮想画像分割が品質にとって重要な理由も説明できます。1280×8000ピクセルのウェブトゥーンページは328×2048にスケールされます — スマートフォンのスクリーンショットよりわずかに広いだけです。そのページを2つの1280×4000バンドに分割すると、AIは2倍の水平解像度で処理でき、着色の細部が目に見えて向上します。
AIの限界とその回避方法
AI着色には本当の限界があります。モデルは見たことのないキャラクターに間違った色を割り当てることがあります。暗いシーンを意図より明るく解釈することがあります。あるパネルの色が隣接パネルの背景に滲むこともあります。これらはより良いコードで修正できるバグではなく、大規模言語モデルが視覚情報を処理する方法に固有のものです。
これらの限界に対する私たちのアプローチは多層的です。キャラクターパレットは、モデルに正確に何を使うか伝えることで色の割り当て問題を処理します。コンテキスト学習は、シーン固有の色を記憶することで環境の一貫性の問題を処理します。編集モードは、人間のオペレーターが的確な修正を行えるようにすることで、その他すべてを処理します。AIが95%の作業を行い、人間が残りの5%を磨きます。
このヒューマンインザループのアプローチがプロダクション品質の鍵です。AIは主要なカラリストとして十分に高速で一貫しています。人間はAIが不十分な場合を捉えて修正するのに十分な精度を持っています。両者が協力して、手動着色と区別がつかないチャプターを、時間とコストのごく一部で制作します。