← 返回 Colorizer

AI 漫画上色的工作原理

我们为何选择 Google Gemini,虚拟图像拆分如何因需而生,以及出版级 AI 与业余工具之间的本质区别。

Watashi Games 发布 · 2026 年 3 月


为何选择 Google Gemini 进行上色

当我们开始构建 Watashi Colorizer 时,评估了所有可用的 AI 图像上色模型。传统的神经网络上色器 — 那些专门针对漫画训练的 — 产生的结果平淡而均匀。它们能给区域着色,但无法理解上下文。夜景和日景都会得到相同的蓝天。角色的服装颜色每次都是随机的。

大型多模态模型改变了这一局面。Google 的 Gemini 模型能够解读图像的内容 — 识别角色、理解场景上下文、阅读文字 — 并基于这种理解进行上色。当你告诉 Gemini“这个角色有红头发和蓝色夹克”,模型会应用这些颜色,因为它在语义层面理解了这个指令,而不是在匹配像素模式。

Gemini 还原生处理文字。它可以阅读对话,在上色过程中保留文字,甚至在同一次处理中将其翻译成其他语言。对出版者来说,这意味着一次 API 调用就能同时完成页面上色和翻译 — 这在以前需要为每个步骤使用不同的工具。

虚拟图像拆分的诞生

虚拟图像拆分不是计划中的功能。它诞生于一次制作失败。我们正在上色一个网漫章节,其中一个戏剧性场景跨越了两页 — 角色从第 15 页底部的分镜跳到第 16 页顶部的着陆分镜。两页落入了不同的 AI 批次。模型在一个批次中将角色的服装上成蓝色,另一个批次上成紫色。色彩断裂恰好发生在动作的正中间。

最初的修复很简单:重叠批次,让批次 N 的最后一张图像作为色彩参考再次出现在批次 N+1 中。这完全失败了。AI 每次都重新解读颜色,对相同内容产生两种不同的上色结果。我们尝试混合重叠区域,但 AI 在上色过程中会略微移动元素位置,导致任何混合都产生瑕疵。

真正的解决方案需要重新思考整个流水线。不是发送整页,而是在自然场景边界 — 黑色分隔线 — 处拆分页面,然后按视觉连续性重新组合得到的画面区域。第 15 页底部和第 16 页顶部现在进入同一批次,因为系统识别出它们之间没有场景中断。

出版级 vs 业余级 AI 上色

业余级和出版级 AI 上色的区别归结于大规模下的一致性。一个能把单张图像上得很漂亮的业余工具,如果在 60 页的章节中每页产生不同颜色,就毫无用处。出版级意味着第 1 页和第 60 页的输出看起来像出自同一位上色师之手。

业余工具通常也忽略输出尺寸。它们将图像调整为模型偏好的分辨率,然后返回 AI 生成的任何结果。对于出版,输出必须精确匹配输入尺寸 — 像素级精确。我们的流水线在 AI 的分辨率下处理,但将结果映射回原始画布,保留每一个尺寸。

角色控制是另一个分水岭。业余工具让 AI 自由选择颜色。出版工具强制执行制作团队定义的特定色板。当你出版一个有 200 章的系列时,你不能让 AI 即兴发挥角色颜色。它们必须每次都与风格指南匹配。

AI 如何看待你的漫画页面

AI 模型接收最长边不超过 2048 像素的图像。一个典型的 1280×4000 网漫页面会被缩小到大约 655×2048 进行处理。在这个分辨率下,大文字可以阅读,但小文字 — 属性表、游戏棋盘、微小标签 — 会变得模糊。模型试图重建模糊的文字,常常生成乱码字符。

这就是文字保留作为可选功能存在的原因。在发送给 AI 之前,系统使用局部对比度分析检测小而密集的文字区域,用模糊背景遮盖,将无文字图像发送给 AI,然后将原始文字贴回上色结果上。AI 从未看到文字,所以无法将其弄乱。

理解 AI 看到的内容也解释了为什么虚拟图像拆分对质量至关重要。一个 1280×8000 像素的网漫页面会被缩小到 328×2048 — 仅比智能手机截图宽一点点。将该页面拆分为两个 1280×4000 的区域,AI 就能以两倍的水平分辨率工作,上色细节明显提升。

AI 的局限性及我们的应对方法

AI 上色有真实的局限性。模型偶尔会给从未见过的角色分配错误的颜色。它可能将暗场景解读得比预期更亮。有时一个分镜的颜色会渗入相邻分镜的背景。这些不是可以用更好的代码修复的 bug — 它们是大语言模型处理视觉信息方式的固有特性。

我们对这些局限性的应对是多层次的。角色色板通过告诉模型确切使用什么颜色来解决色彩分配问题。上下文学习通过记住场景特定颜色来解决环境一致性问题。编辑模式通过让人类操作者进行精准修正来处理其余所有问题。AI 完成 95% 的工作;人类精修剩余的 5%。

这种人在回路中的方法是制作级品质的关键。AI 作为主要上色师足够快速和一致。人类足够精准,能够捕捉和修复 AI 不足之处。两者协作,以极小的时间和成本比例,制作出与手动上色无法区分的章节。

如需对 AI 上色技术的更深入技术探讨,请阅读 watashicolorizer.com 上的详细解析。

阅读完整指南 →