การลงสีมังงะด้วย AI ทำงานอย่างไร
ทำไมเราเลือก Google Gemini, การแยกภาพเสมือนเกิดขึ้นจากความจำเป็นได้อย่างไร และอะไรที่แยก AI ระดับสำนักพิมพ์จากเครื่องมืองานอดิเรก
เผยแพร่โดย Watashi Games · มีนาคม 2026
ทำไมเราเดิมพันกับ Google Gemini สำหรับการลงสี
เมื่อเราเริ่มสร้าง Watashi Colorizer เราประเมินโมเดล AI ทุกตัวที่มีสำหรับการลงสีภาพ เครื่องมือลงสีแบบ neural network ดั้งเดิม — ที่ฝึกมาเฉพาะสำหรับมังงะ — ให้ผลลัพธ์แบนราบและสม่ำเสมอ สามารถย้อมพื้นที่ได้แต่ไม่เข้าใจบริบท ฉากกลางคืนและฉากกลางวันได้ท้องฟ้าสีฟ้าเหมือนกัน
โมเดลมัลติโมดัลขนาดใหญ่เปลี่ยนสมการ โมเดล Gemini ของ Google สามารถตีความเนื้อหาของภาพ — ระบุตัวละคร เข้าใจบริบทของฉาก อ่านข้อความ — และลงสีตามความเข้าใจนั้น เมื่อคุณบอก Gemini ว่า "ตัวละครนี้มีผมสีแดงและแจ็คเก็ตสีน้ำเงิน" โมเดลจะใช้สีเหล่านั้นเพราะเข้าใจคำสั่งเชิงความหมาย
Gemini ยังจัดการข้อความโดยธรรมชาติ สามารถอ่านบทสนทนา รักษาไว้ระหว่างการลงสี และแม้แต่แปลเป็นภาษาอื่นในรอบเดียว สำหรับสำนักพิมพ์ นี่หมายความว่าการเรียก API ครั้งเดียวสามารถลงสีหน้าและแปลพร้อมกัน
กำเนิดของการแยกภาพเสมือน
การแยกภาพเสมือนไม่ได้ถูกวางแผน มันเกิดจากความล้มเหลวในการผลิต เราลงสีตอนเว็บตูนที่ฉากดราม่าข้ามสองหน้า — ตัวละครกระโดดจากช่องด้านล่างหน้า 15 ไปยังช่องลงจอดด้านบนหน้า 16 สองหน้าอยู่ในแบตช์ AI ต่างกัน โมเดลลงสีชุดตัวละครเป็นสีน้ำเงินในแบตช์หนึ่งและม่วงในอีกแบตช์ รอยต่อสีตกกลางฉากแอ็กชัน
การแก้ไขแรกเรียบง่าย: ทับซ้อนแบตช์เพื่อให้ภาพสุดท้ายของแบตช์ N ปรากฏอีกครั้งในแบตช์ N+1 เป็นตัวอ้างอิงสี สิ่งนี้ล้มเหลวอย่างสิ้นเชิง AI ตีความสีใหม่ทุกครั้ง ให้สองเวอร์ชันที่ลงสีต่างกันของเนื้อหาเดียวกัน
ทางออกจริงต้องคิดใหม่ทั้งไปป์ไลน์ แทนที่จะส่งทั้งหน้า เราแยกหน้าที่ขอบเขตฉากตามธรรมชาติ — เส้นแบ่งช่องสีดำ — และจัดกลุ่มแถบภาพผลลัพธ์ตามความต่อเนื่องของภาพ ด้านล่างหน้า 15 และด้านบนหน้า 16 ตอนนี้อยู่ในแบตช์เดียวกันเพราะระบบรู้ว่าไม่มีจุดแบ่งฉากระหว่างนั้น
AI ระดับสำนักพิมพ์ vs ระดับงานอดิเรก
ความแตกต่างระหว่างการลงสี AI ระดับงานอดิเรกและระดับสำนักพิมพ์คือความสม่ำเสมอในระดับมาก เครื่องมืองานอดิเรกที่ลงสีภาพเดียวสวยงามนั้นไม่มีประโยชน์สำหรับตอน 60 หน้าถ้าให้สีต่างกันทุกหน้า ระดับสำนักพิมพ์หมายความว่าผลลัพธ์ของหน้า 1 และหน้า 60 ดูเหมือนมาจากนักลงสีคนเดียวกัน
เครื่องมืองานอดิเรกยังมักเพิกเฉยขนาดผลลัพธ์ พวกเขาปรับขนาดภาพเป็นความละเอียดที่โมเดลต้องการและส่งคืนสิ่งที่ AI สร้าง สำหรับการตีพิมพ์ ผลลัพธ์ต้องตรงกับขนาดอินพุตทุกประการ — พิกเซลต่อพิกเซล
การควบคุมตัวละครเป็นอีกจุดแบ่ง เครื่องมืองานอดิเรกปล่อยให้ AI เลือกสีอิสระ เครื่องมือสำนักพิมพ์บังคับใช้พาเลตเฉพาะที่กำหนดโดยทีมผลิต เมื่อคุณตีพิมพ์ซีรีส์ที่มี 200 ตอน คุณไม่สามารถให้ AI ด้นสดสีตัวละครได้
AI เห็นหน้ามังงะของคุณอย่างไร
โมเดล AI รับภาพที่ความละเอียดสูงสุด 2048 พิกเซลที่ด้านยาวที่สุด หน้าเว็บตูนทั่วไปที่ 1280×4000 จะถูกย่อเหลือประมาณ 655×2048 สำหรับการประมวลผล ที่ความละเอียดนั้น ข้อความขนาดใหญ่อ่านได้แต่ข้อความเล็ก — ตารางสถิติ กระดานเกม ป้ายเล็ก — จะเบลอ โมเดลพยายามสร้างข้อความเบลอใหม่และมักสร้างตัวอักษรที่อ่านไม่ออก
นี่คือเหตุผลที่การรักษาข้อความมีอยู่เป็นคุณสมบัติเลือกใช้ ก่อนส่งไปที่ AI ระบบตรวจจับบริเวณข้อความเล็กที่หนาแน่น มาสก์ด้วยค่าพื้นหลังที่เบลอ ส่งภาพที่ไม่มีข้อความไปที่ AI แล้ววางข้อความต้นฉบับกลับบนผลลัพธ์ที่ลงสี AI ไม่เคยเห็นข้อความจึงไม่สามารถทำให้อ่านไม่ออกได้
การเข้าใจสิ่งที่ AI เห็นยังอธิบายว่าทำไมการแยกภาพเสมือนจึงสำคัญสำหรับคุณภาพ หน้าเว็บตูน 1280×8000 พิกเซลจะถูกย่อเป็น 328×2048 — แคบกว่าภาพหน้าจอสมาร์ทโฟน การแยกหน้านั้นเป็นสองแถบ 1280×4000 ให้ AI ความละเอียดแนวนอนมากเป็นสองเท่า ให้รายละเอียดที่ดีขึ้นอย่างเห็นได้ชัด
ข้อจำกัดของ AI และวิธีที่เราแก้ไข
การลงสี AI มีข้อจำกัดจริง โมเดลบางครั้งกำหนดสีผิดให้ตัวละครที่ไม่เคยเห็น อาจตีความฉากมืดว่าสว่างกว่าที่ตั้งใจ บางครั้งสีเลือดจากช่องหนึ่งไหลเข้าไปในพื้นหลังของช่องข้างเคียง สิ่งเหล่านี้ไม่ใช่บั๊กที่แก้ได้ด้วยโค้ดที่ดีกว่า — เป็นสิ่งที่อยู่ในธรรมชาติของวิธีที่โมเดลภาษาขนาดใหญ่ประมวลผลข้อมูลภาพ
แนวทางของเราต่อข้อจำกัดเหล่านี้เป็นแบบหลายชั้น พาเลตตัวละครจัดการปัญหาการกำหนดสี การเรียนรู้บริบทจัดการปัญหาความสม่ำเสมอของสภาพแวดล้อม โหมดแก้ไขจัดการทุกอย่างอื่นโดยให้ผู้ปฏิบัติงานมนุษย์สั่งแก้ไขเฉพาะจุด AI ทำงาน 95% ของงาน มนุษย์ขัดเกลาอีก 5%
แนวทางมนุษย์ในวงจรนี้เป็นกุญแจสู่คุณภาพการผลิต AI เร็วและสม่ำเสมอพอที่จะเป็นนักลงสีหลัก มนุษย์แม่นยำพอที่จะจับและแก้ไขกรณีที่ AI พลาด ร่วมกัน พวกเขาผลิตตอนที่แยกไม่ออกจากการลงสีด้วยมือในเวลาและต้นทุนที่น้อยกว่ามาก
สำหรับข้อมูลเชิงเทคนิคเชิงลึกเกี่ยวกับเทคโนโลยีการลงสี AI อ่านบทความอธิบายโดยละเอียดของเราที่ watashicolorizer.com
อ่านคู่มือฉบับเต็ม →