← 返回 Colorizer

AI 漫畫上色的運作原理

為什麼我們選擇 Google Gemini、虛擬圖像拆分的誕生源於必要性,以及出版級 AI 與業餘級工具的區別。

由 Watashi Games 發布 · 2026 年 3 月


為什麼我們選擇 Google Gemini 進行上色

當我們開始建構 Watashi Colorizer 時,我們評估了每一個可用的 AI 模型。傳統的神經網絡上色器 — 那些專門針對漫畫訓練的 — 產出扁平、單一的結果。它們可以為區域著色,但無法理解上下文。夜景和白天場景得到相同的藍色天空。角色的服裝顏色每次都是隨機的。

大型多模態模型改變了局面。Google 的 Gemini 模型可以理解圖像內容 — 識別角色、理解場景上下文、閱讀文字 — 並基於這種理解進行上色。當你告訴 Gemini「這個角色有紅色頭髮和藍色夾克」時,模型會應用這些顏色,因為它從語義上理解了指令,而不是因為它在匹配像素模式。

Gemini 還能原生處理文字。它可以閱讀對話、在上色過程中保留文字,甚至在同一次處理中將其翻譯成其他語言。對出版者來說,這意味著一次 API 呼叫就可以同時上色和翻譯頁面 — 這個工作流以前需要為每個步驟使用不同的工具。

虛擬圖像拆分的誕生

虛擬圖像拆分不是計劃中的。它源於一次生產失敗。我們正在上色一個網漫章節,其中一個戲劇性場景跨越了兩頁 — 一個角色從第 15 頁底部的一格跳躍到第 16 頁頂部的著陸格。這兩頁落在了不同的 AI 批次中。模型在一個批次中將角色的服裝上為藍色,在另一個批次中上為紫色。色彩斷裂就落在動作場面的正中間。

最初的修復方案很簡單:重疊批次,讓批次 N 的最後一張圖像再次出現在批次 N+1 中作為色彩參考。這徹底失敗了。AI 每次都重新詮釋顏色,對相同內容產出兩種不同的上色結果。我們嘗試混合重疊區域,但 AI 在上色過程中會輕微偏移元素位置,導致任何混合都會產生瑕疵。

真正的解決方案需要重新思考整條流水線。我們不再發送整頁,而是在頁面的自然場景邊界 — 黑色分隔線 — 處拆分頁面,然後按視覺連續性重新分組產生的畫面區域。第 15 頁的底部和第 16 頁的頂部現在會進入同一個批次,因為系統識別出它們之間沒有場景斷裂。

出版級 vs 業餘級 AI 上色

業餘級和出版級 AI 上色的區別歸結為規模化的一致性。一個業餘工具可以把一張圖像上色得很漂亮,但如果它對 60 頁章節的每一頁都產出不同的顏色,那就毫無用處。出版級意味著第 1 頁和第 60 頁的輸出看起來像出自同一位上色師。

業餘工具通常也忽視輸出尺寸。它們將圖像調整到模型偏好的解析度,然後返回 AI 生成的任何結果。對於出版,輸出必須與輸入尺寸完全匹配 — 逐像素一致。我們的流水線在 AI 的解析度下處理,但將結果映射回原始畫布,保留每一個尺寸。

角色控制是另一個分水嶺。業餘工具讓 AI 自由選擇顏色。出版工具強制執行由生產團隊定義的特定色板。當你出版一個有 200 章的系列時,你不能讓 AI 即興發揮角色顏色。它們必須每次都符合風格指南。

AI 如何看到你的漫畫頁面

AI 模型接收的圖像最長邊不超過 2048 像素。一張典型的 1280×4000 網漫頁面會被縮小到大約 655×2048 進行處理。在這個解析度下,大字體是可讀的,但小字體 — 數據表格、遊戲面板、微小標籤 — 會變得模糊。模型會嘗試重建模糊的文字,經常生成亂碼字元。

這就是文字保留作為選擇性功能存在的原因。在發送給 AI 之前,系統使用局部對比度分析偵測小而密集的文字區域,用模糊的背景遮蓋它們,將無文字的圖像發送給 AI,然後將原始文字貼回上色結果上。AI 永遠看不到文字,所以無法將其弄亂。

理解 AI 看到的內容也解釋了為什麼虛擬圖像拆分對品質很重要。一張 1280×8000 像素的網漫頁面會被縮放到 328×2048 — 比手機截圖還窄。將該頁面拆分為兩個 1280×4000 的區域,可以讓 AI 獲得兩倍的水平解析度,在上色中產出明顯更好的細節。

AI 的局限性及我們的應對方法

AI 上色有真實的局限性。模型偶爾會為未見過的角色分配錯誤的顏色。它可能將深色場景詮釋得比預期更亮。它有時會讓顏色從一格滲透到相鄰格的背景中。這些不是我們可以通過更好的代碼修復的錯誤 — 它們是大型語言模型處理視覺信息的固有特性。

我們對這些局限性的應對是分層的。角色色板通過告訴模型確切使用什麼來處理顏色分配問題。上下文學習通過記憶場景特定的顏色來處理環境一致性問題。編輯模式通過讓操作者進行定向修正來處理其他所有問題。AI 完成 95% 的工作;人類優化剩餘的 5%。

這種人機協作的方法是生產品質的關鍵。AI 足夠快速和一致,可以作為主要上色師。人類足夠精確,可以捕捉和修正 AI 不足的地方。兩者合作產出的章節,在時間和成本的零頭之內就可以達到與人工上色無法區分的品質。

如需深入了解 AI 上色技術,請到 watashicolorizer.com 閱讀我們的詳細技術解析。

閱讀完整指南 →