為什麼批量上色對出版者意義重大
當我們開始為出版而上色網漫章節時,第一個發現就是:單張圖像上色工具對生產工作基本上毫無用處。一個典型的網漫章節有 40 到 80 頁。逐頁上色 — 即使用快速的 AI 工具 — 也會導致每頁的色彩不一致。角色的頭髮在第 12 頁可能是赤褐色,到第 13 頁就變成了栗色。背景在不同分鏡之間會發生色調偏移。結果看起來就像每一頁都由不同的畫師上色。
批量上色不僅僅是速度的問題。它是將整章視為一個工作單元來處理,就像人類畫師的做法一樣。當人類上色師處理一章時,他們會在第一頁建立色板並延續下去。他們能看到場景轉換並保持氛圍。他們不會忘記三頁前牆壁是什麼顏色。任何生產級上色工具都必須複製這種連續性,而這只有在工具一次處理整章時才有可能。
這就是我們從一開始就將 Watashi Colorizer 建構為批量流水線的核心原因。不是在單張圖像工具上外掛批量模式,而是從底層設計一個理解章節是連續藝術序列的系統。
工程挑戰:跨頁色彩一致性
批量上色中最難的問題不是處理速度 — 而是一致性。AI 模型以固定大小的批次處理圖像,任何兩個批次都會對相同內容產生略微不同的色彩詮釋。如果一個場景從第 30 頁底部開始,延續到第 31 頁頂部,而這兩頁落在不同的批次中,你就會在動作場面的正中間看到明顯的色彩接縫。
我們的解決方案是虛擬圖像拆分。我們不是將整頁發送給 AI,而是掃描每頁的黑色分隔線 — 即網漫格式中用來分隔場景的純黑水平色帶。我們在這些分隔線處將頁面拆分為獨立的畫面區域,然後按照跨頁的場景連續性重新分組。第 30 頁的底部和第 31 頁的頂部最終會進入同一個 AI 批次,這樣模型就能一起看到並上色。
這需要數月的調整。分隔線偵測必須區分純黑的分隔線和深色畫面內容(如陰影、頭髮和夜景)。我們掃描每張圖像的每一列,使用 RGB 閾值 15 對像素分類 — 只有接近純黑的才算。任何有可見紋理的內容,即使是每通道 10-30 的微妙灰度值,都會被識別為畫面並保持不動。
從單張圖像到完整章節:建構流水線
完整的流水線分為四個階段。首先,每張上傳的圖像在偵測到的黑色空隙處被掃描並拆分為虛擬圖像。其次,這些虛擬圖像根據場景連續性被分批組合,遵循最大長寬比限制以確保 AI 獲得足夠的解析度。第三,每個批次被拼接成一張高圖像,發送給 AI,上色結果再被切分回來。第四,所有上色後的畫面區域被合成回原始畫布,保持完全一致的原始尺寸。
分批步驟是複雜度最高的環節。我們通過掃描完全黑色的行來評估每對相鄰虛擬圖像之間的邊界 — 不是計算像素平均暗度,而是統計 95% 以上像素為純黑的行數。如果邊界得分高,就是安全的批次分割點。如果得分低,說明有畫面跨越邊界,我們會將這些圖像保持在一起。這種基於行的評分能捕捉到像素平均法遺漏的細節,比如黑色背景上的一行對話文字。
塑造我們方法的生產需求
幾項生產需求驅動了架構決策。輸出必須保持與原始完全一致的尺寸 — 出版者需要可以直接替換到現有工作流中的檔案。角色顏色必須可以在十六進位級別控制,因為出版者有既定的風格指南。工具必須在無需手動配置的情況下處理日漫、韓漫、國漫和網漫格式,因為生產團隊不應該需要為每個系列調整設定。
我們還發現壓縮在規模化時很重要。一張 2000×8000 像素的 PNG 頁面可能超過 10MB。乘以 60 頁,一章就需要在流水線中傳輸 600MB。在接收時自動壓縮 — 將超大 PNG 重新編碼為 JPEG q92 而不改變尺寸 — 可以將其壓縮到 100MB 以下,同時保持所有可見品質的像素。
這些不是你上色單張測試圖像時會想到的功能。它們是在你處理第一百章之後才浮現的需求,當流水線效率和輸出一致性成為可用工具與玩具之間的區別時。
發布上色章節後的經驗
在為數十個系列上色數千頁之後,最重要的經驗是:一致性勝過巔峰品質。一章中每一頁都好的效果,遠比五頁驚艷但其餘明顯不同的效果更適合發布。角色色板、上下文學習和場景感知分批都服務於同一個目標:讓整章看起來像是由同一位畫師上色的。
第二個經驗是編輯不是可選的。無論 AI 變得多好,有些分鏡都需要手動調整。角色的瞳色可能會偏移。背景氛圍可能與劇本不符。我們的編輯模式讓你用自然語言指令修正特定分鏡,而不需要重新處理整章,因為在生產中,進行定向修正的能力與初始上色品質同樣重要。