← العودة إلى الملوّن

كيف يعمل تلوين المانغا بالذكاء الاصطناعي

لماذا اخترنا Google Gemini، كيف وُلد التقسيم الافتراضي للصور من الضرورة، وما الذي يفصل الذكاء الاصطناعي بمستوى الناشر عن الأدوات الهاوية.

نشر بواسطة Watashi Games · مارس 2026


لماذا راهنّا على Google Gemini للتلوين

عندما بدأنا ببناء Watashi Colorizer، قيّمنا كل نموذج ذكاء اصطناعي متاح لتلوين الصور. الملوّنات التقليدية بالشبكات العصبية — النوع المدرّب خصيصًا على المانغا — أنتجت نتائج مسطحة وموحدة. يمكنها تلوين المناطق لكنها لا تفهم السياق. مشهد ليلي ومشهد نهاري يحصلان على نفس السماء الزرقاء. لون ملابس الشخصية عشوائي في كل مرة.

النماذج متعددة الوسائط الكبيرة غيّرت المعادلة. نماذج Google Gemini تستطيع تفسير محتوى الصورة — التعرف على الشخصيات، فهم سياق المشهد، قراءة النص — والتلوين بناءً على ذلك الفهم. عندما تخبر Gemini «هذه الشخصية لها شعر أحمر وسترة زرقاء»، يطبق النموذج تلك الألوان لأنه يفهم التعليمات دلاليًا، وليس لأنه يطابق نمط بكسلات.

Gemini أيضًا يتعامل مع النص بشكل أصلي. يمكنه قراءة الحوار، الحفاظ عليه أثناء التلوين، وحتى ترجمته إلى لغات أخرى في نفس التمريرة. بالنسبة للناشر، هذا يعني أن استدعاء API واحد يمكنه تلوين صفحة وترجمتها في آن واحد — سير عمل كان يتطلب سابقًا أدوات منفصلة لكل خطوة.

ولادة التقسيم الافتراضي للصور

التقسيم الافتراضي للصور لم يكن مخططًا. وُلد من فشل إنتاجي. كنا نلوّن فصل ويبتون حيث مشهد درامي امتد عبر صفحتين — شخصية تقفز من لوحة في أسفل الصفحة 15 إلى لوحة هبوط في أعلى الصفحة 16. الصفحتان وقعتا في دفعتي ذكاء اصطناعي مختلفتين. النموذج لوّن ملابس الشخصية بالأزرق في دفعة وبالبنفسجي في الأخرى. كسر اللون وقع في منتصف الحدث.

الإصلاح الأولي كان بسيطًا: تداخل الدفعات بحيث تظهر الصورة الأخيرة من الدفعة N مرة أخرى في الدفعة N+1 كمرجع لوني. فشل هذا بشكل مذهل. الذكاء الاصطناعي أعاد تفسير الألوان في كل مرة، منتجًا تلوينين مختلفين لنفس المحتوى. حاولنا مزج المناطق المتداخلة، لكن الذكاء الاصطناعي يُزيح مواقع العناصر قليلًا أثناء التلوين، مما يجعل أي مزج ينتج عيوبًا.

الحل الحقيقي تطلب إعادة التفكير في خط الأنابيب بالكامل. بدلًا من إرسال صفحات كاملة، قسمنا الصفحات عند حدود المشاهد الطبيعية — فواصل اللوحات السوداء — وأعدنا تجميع الشرائح الفنية الناتجة حسب الاستمرارية البصرية. أسفل الصفحة 15 وأعلى الصفحة 16 الآن يقعان في نفس الدفعة لأن النظام يتعرف على عدم وجود فاصل مشهد بينهما.

تلوين الذكاء الاصطناعي بمستوى الناشر مقابل المستوى الهاوي

الفرق بين تلوين الذكاء الاصطناعي بالمستوى الهاوي وبمستوى الناشر يتلخص في الاتساق على نطاق واسع. أداة هاوية تلوّن صورة واحدة بشكل جميل عديمة الفائدة لفصل من 60 صفحة إذا أنتجت ألوانًا مختلفة في كل صفحة. مستوى الناشر يعني أن إخراج الصفحة 1 والصفحة 60 يبدو كأنه من نفس الملوّن.

الأدوات الهاوية أيضًا تتجاهل عادة أبعاد الإخراج. تغيّر حجم الصور إلى الدقة المفضلة للنموذج وتُرجع ما ينتجه الذكاء الاصطناعي. للنشر، يجب أن تطابق أبعاد الإخراج أبعاد الإدخال تمامًا — بكسل ببكسل. خط الأنابيب لدينا يعالج بدقة الذكاء الاصطناعي لكنه يعيد تعيين النتيجة على اللوحة الأصلية، محافظًا على كل بُعد.

التحكم بالشخصيات هو خط فاصل آخر. الأدوات الهاوية تترك الذكاء الاصطناعي يختار الألوان بحرية. أدوات الناشر تفرض لوحات محددة يحددها فريق الإنتاج. عندما تنشر سلسلة من 200 فصل، لا يمكنك السماح للذكاء الاصطناعي بارتجال ألوان الشخصيات. يجب أن تطابق دليل الأنماط في كل مرة.

كيف يرى الذكاء الاصطناعي صفحات المانغا

يستقبل نموذج الذكاء الاصطناعي الصور بدقة قصوى 2048 بكسل على الضلع الأطول. صفحة ويبتون نموذجية بأبعاد 1280×4000 تُصغّر إلى حوالي 655×2048 للمعالجة. بتلك الدقة، النص الكبير مقروء لكن النص الصغير — جداول الإحصائيات، ألواح الألعاب، التسميات الدقيقة — يصبح ضبابيًا. النموذج يحاول إعادة إنشاء النص الضبابي وغالبًا يولّد أحرفًا مشوّهة.

لهذا وُجدت ميزة الحفاظ على النص كخيار اختياري. قبل الإرسال إلى الذكاء الاصطناعي، يكتشف النظام مناطق النص الصغير والكثيف باستخدام تحليل التباين المحلي، يقنّعها بخلفية ضبابية، يرسل الصورة الخالية من النص إلى الذكاء الاصطناعي، ثم يلصق النص الأصلي مرة أخرى على النتيجة الملوّنة. الذكاء الاصطناعي لا يرى النص أبدًا، فلا يمكنه تشويهه.

فهم ما يراه الذكاء الاصطناعي يفسر أيضًا لماذا التقسيم الافتراضي للصور مهم للجودة. صفحة ويبتون بأبعاد 1280×8000 تُصغّر إلى 328×2048 — بالكاد أعرض من لقطة شاشة هاتف ذكي. تقسيم تلك الصفحة إلى شريطين بأبعاد 1280×4000 يعطي الذكاء الاصطناعي ضعف الدقة الأفقية، مما ينتج تفاصيل أفضل بشكل ملحوظ في التلوين.

حدود الذكاء الاصطناعي وكيف نتعامل معها

لتلوين الذكاء الاصطناعي حدود حقيقية. النموذج أحيانًا يعين ألوانًا خاطئة لشخصيات لم يرها من قبل. يمكنه تفسير المشاهد المظلمة كأفتح مما هو مقصود. أحيانًا ينزف اللون من لوحة إلى خلفية اللوحة المجاورة. هذه ليست أخطاء يمكننا إصلاحها بكود أفضل — إنها متأصلة في كيفية معالجة النماذج اللغوية الكبيرة للمعلومات المرئية.

نهجنا تجاه هذه الحدود متعدد الطبقات. لوحات ألوان الشخصيات تتعامل مع مشكلة تعيين الألوان بإخبار النموذج بالضبط ماذا يستخدم. تعلّم السياق يتعامل مع مشكلة اتساق البيئة بتذكر ألوان خاصة بالمشاهد. وضع التحرير يتعامل مع كل شيء آخر بالسماح للمشغل البشري بإعطاء تصحيحات مستهدفة. الذكاء الاصطناعي يقوم بـ 95% من العمل؛ الإنسان يصقل الـ 5% المتبقية.

نهج الإنسان في الحلقة هذا هو مفتاح جودة الإنتاج. الذكاء الاصطناعي سريع ومتسق بما يكفي ليكون الملوّن الأساسي. الإنسان دقيق بما يكفي للإمساك بالحالات التي يقصر فيها الذكاء الاصطناعي وإصلاحها. معًا، ينتجان فصولًا لا يمكن تمييزها عن التلوين اليدوي بجزء بسيط من الوقت والتكلفة.

لنظرة تقنية أعمق في تقنية تلوين الذكاء الاصطناعي، اقرأ الشرح التفصيلي على watashicolorizer.com.

اقرأ الدليل الكامل →