نماذج Vision-Language-Action: طبقة التشغيل المستقبلية للروبوت

قضت الروبوتات سنوات تتأرجح بين العروض المذهلة وحدود النشر العنيدة. يمكن لـ robot أن يفتح درجًا في فيديو، ويطوي الغسيل في آخر، ومع ذلك يفشل في اللحظة التي يتغير فيها الإضاءة، أو يكون الكائن غير مألوف، أو تستمر سلسلة المهام لفترة أطول من مقطع منسق بعناية. هذه الفجوة هي السبب في أن الصعود الأخير لنماذج vision-language-action مهم جدًا. هذه الأنظمة ليست مجرد اتجاه آخر للذكاء الاصطناعي في الروبوتات. إنها تمثل محاولة جادة لبناء طبقة برمجية أكثر عمومية بين النية البشرية وحركة الآلة.

الطريقة الأكثر فائدة للتفكير في نماذج vision-language-action، أو VLA، ليست كـ robot chatbots. إنها طبقة تشغيل ناشئة تحاول دمج ثلاثة أشياء تعاملت معها الروبوتات تاريخيًا في مكدسات منفصلة: رؤية العالم، وفهم التعليمات، وتوليد الحركة. إذا استمرت في التحسن، يمكنها أن تفعل لسلوك robot ما فعلته foundation models الحديثة لسير عمل النصوص والصور، أي استبدال pipelineات الهشة الخاصة بالمهام بواجهة عامة أكثر مرونة.

لماذا احتاجت الروبوتات إلى تجريد برمجي جديد

لقد حققت الروبوتات التقليدية الكثير، خاصة في البيئات الصناعية المنظمة. لكنها تعتمد عادةً على التفكيك (decomposition). يتعامل نظام واحد مع الإدراك، وآخر يخطط، وآخر يتحكم في الحركة، ويقضي المهندسون جهدًا هائلاً في ربط الأجزاء ببعضها البعض. يعمل هذا عندما تكون المهام متكررة، والبيئات مقيدة، وتبرر قيمة كل نقطة مئوية إضافية من الموثوقية تكلفة التكامل.

يبدأ النموذج في الانهيار في الإعدادات الأقل تنظيمًا. المستودعات تغير تخطيطاتها. المنازل مليئة بالأشياء الجديدة. تواجه robotات الخدمة تعليمات غامضة وارتجالًا بشريًا. يمكن للمكدس القديم القيام بهذه المهام، ولكن عادةً فقط بعد هندسة مكثفة، و fine-tuning للبيئة، وتحديد ضيق للمهام. غالبًا ما يحتاج robot الذي يؤدي مهمة جديدة واحدة إلى جهد جديد لجمع data، أو سياسات جديدة، أو قدر معين من scripting اليدوي.

تعتبر VLA جذابة لأنها تدمج جزءًا أكبر من هذه المشكلة في نظام تعلم واحد. بدلاً من الفصل الصارم بين الإدراك والحركة، تهدف إلى تعلم تعيين مباشر من المدخلات متعددة الوسائط، بما في ذلك الصور وأوامر natural-language، إلى مخرجات التحكم. نظريًا، يمنح هذا robotات قدرة أوسع على التعميم عبر المهام والأشياء والسياقات دون البدء من الصفر في كل مرة.

التقدم البحثي لم يعد افتراضيًا

لقد جعلت العديد من المشاريع هذا التحول ملموسًا. OpenVLA، وهو نموذج open-source بـ 7B parameter تم بناؤه من التعاون بين Stanford و Berkeley و Toyota Research Institute و Google DeepMind و MIT وغيرهم، تم تدريبه على 970,000 حلقة robot من dataset Open X-Embodiment. لا تكمن أهميته في الحجم الخام فقط. لقد أظهر أن VLA عامًا يمكنه التحكم في منصات robot متعددة، والتكيف من خلال fine-tuning فعال من حيث المعلمات، والتفوق على الأنظمة السابقة في مجموعة من مهام التعميم.

تعتبر زاوية open-source هذه مهمة لأنها توسع نطاق التجريب. غالبًا ما كانت الروبوتات تعاني من عنق الزجاجة بسبب الوصول إلى hardware و data والأنظمة proprietary المغلقة. نموذج open ذو طموحات cross-embodiment حقيقية يقلل من الحاجز أمام المختبرات والشركات الناشئة التي ترغب في البناء على أسس مشتركة بدلاً من إعادة اختراع stack بأكمله.

اللاعبون التجاريون يتحركون بسرعة أيضًا. نموذج Helix من Figure هو مثال قوي على الاتجاه الذي تتجه إليه هذه الفئة. تصف الشركة النموذج بأنه VLA يوحد فهم اللغة، وإدراك المشهد، والتحكم المتعلم لتشغيل humanoid كامل الجزء العلوي من الجسم. الأكثر إثارة للاهتمام من العنوان الرئيسي هو البنية: يتعامل نظام استدلال أبطأ مع التفسير عالي المستوى بينما تنتج سياسة تفاعلية أسرع تحكمًا مستمرًا بتردد عالٍ. يعكس هذا الانقسام حقيقة مهمة في الروبوتات. الاستدلال العام مفيد، لكن الآلة لا تزال بحاجة إلى كفاءة حركية منخفضة latency للبقاء على قيد الحياة في العالم المادي.

التعميم هو بيت القصيد

ما يجعل VLA أكثر واعدة من العديد من مكدسات الروبوتات السابقة هو أنها تستهدف التعميم صراحةً بدلاً من الكفاءة فقط في مهمة ثابتة. تدعي Figure أن Helix يمكنه التعامل مع آلاف الأشياء المنزلية غير المألوفة من خلال natural language. أكدت OpenVLA على التعميم البصري والفيزيائي والدلالي عبر الخلفيات غير المرئية، والمشتتات، وتكوينات الكائنات، والتعليمات. حتى لو كانت هذه النتائج لا تزال تعكس إعدادات اختبار مقيدة، فإنها تشير في الاتجاه الصحيح.

لطالما عوقبت الروبوتات بحالات الحافة (edge cases). الـ robot المفيد ليس هو الذي يؤدي عرضًا معلبًا مثاليًا. إنه الذي يتدهور بأناقة عندما يتوقف الواقع عن مطابقة training data. نهج VLA جذاب لأن pretraining اللغة والرؤية على نطاق واسع قد يوفر نوعًا من الأولويات الدلالية التي افتقرت إليها أنظمة التحكم القديمة. لم يعد robot يحتاج إلى حفظ كائن واحد ومسار واحد. قد يكون قادرًا على استنتاج الإجراء ذي الصلة من فهم أوسع للمشاهد والأشياء والأهداف.

يمكن أن يكون ذلك تحويليًا في البيئات التي تهيمن عليها "الذيل الطويل" (long tail). المنازل والمستشفيات ومساحات البيع بالتجزئة ومساحات العمل البشرية المختلطة صعبة على وجه التحديد لأنها تحتوي على الكثير من الحداثة بالنسبة لمكتبات السلوك المكتوبة يدويًا.

عنق الزجاجة ينتقل من تصميم السياسة إلى حلقات data

ومع ذلك، لا تزيل VLA المشكلة الروبوتية المركزية بطريقة سحرية. إنها تنقلها. يصبح التحدي هو data والتقييم والتكيف الآمن. يتطلب تدريب VLA مفيد كميات كبيرة من data الملاحظة-العمل المقترنة عبر العديد من embodiments والمهام. هذا مكلف للجمع، فوضوي للتوحيد، وصعب الترجمة عبر منصات hardware.

هذا هو السبب في أهمية datasetات المشتركة مثل Open X-Embodiment، ولماذا أصبحت data الاصطناعية و simulation و teleoperation كلها أكثر أهمية استراتيجيًا. قد تنتهي الشركة التي لديها حلقات data أفضل بمنتج robot أقوى من شركة ذات بنية نموذج أكثر إثارة للإعجاب اسميًا. في الروبوتات، لا يزال توزيع الخبرة يشكل سقف السلوك.

هناك أيضًا تحقق من واقع hardware. على عكس أنظمة الدردشة السحابية، تعمل robotات تحت قيود latency والطاقة والموثوقية. لا يمكن لـ robot مستودع أو مساعد humanoid أن ينتظر نموذجًا بعيدًا لكل قرار صغير. لذلك تبدو inference على الجهاز والبنيات المنقسمة منطقية بشكل متزايد. يمكن أن يكون الاستدلال عالي المستوى أبطأ. لا يمكن أن يكون تنفيذ المحرك كذلك.

لماذا هذه قصة automation، وليست مجرد قصة humanoid

يتم سحب الكثير من المحادثات العامة حول VLA نحو humanoid، لأن humanoid يصنع عناوين أفضل. لكن الأهمية الأوسع هي automation. يمكن أن تكون طبقة سياسة أكثر عمومية مفيدة قبل وقت طويل من أن تصبح robotات humanoid منتجات استهلاكية شائعة. تواجه manipulators المتنقلة، وأنظمة المستودعات، و robotات التفتيش، والآلات الصناعية المتخصصة جميعًا نفس نقطة الألم البرمجية: الكثير من التخصيص لكل سير عمل جديد.

إذا قللت VLA عبء التخصيص هذا ولو بشكل متواضع، فإن اقتصاد automation يتغير. يمكن للمتكاملين قضاء وقت أقل في hard-coding السلوكيات الضيقة والمزيد من الوقت في تشكيل الأهداف، وحدود السلامة، وتصميم سير العمل. هذا لا يلغي هندسة الروبوتات المتخصصة. إنه يجعل تلك الهندسة أكثر قابلية للاستفادة.

بهذا المعنى، يمكن أن تصبح VLA هي الحلقة المفقودة بين المشغلين البشريين و hardware robot. بدلاً من التعبير عن كل مهمة كسلسلة هشة من الأوامر الخاصة بالآلة، قد تصف الفرق بشكل متزايد النتائج المرجوة وتترك لطبقة السياسة العامة التعامل مع المزيد من الترجمة.

ما الذي لا يزال يتعين إثباته

الحذر واضح. تاريخ الروبوتات مليء بالأنظمة التي بدت عامة حتى تعرضت لرف المستودع الخاطئ، أو حالة الإضاءة الخاطئة، أو التعليمات البشرية الخاطئة. لا تزال السلامة صعبة. لا تزال المهام ذات الأفق الطويل هشة. نقل cross-robot واعد ولكنه لم يحل. وهناك فرق كبير بين نموذج يعمل في بيئة تطوير غنية بالعروض التوضيحية ونموذج يمكنه تشغيل وردية كل يوم في production.

هناك أيضًا خطر أن يركز الصناعة بشكل مفرط على عرض النموذج بدلاً من الانضباط في النشر. ستحتاج طبقة التشغيل المفيدة لـ robotات إلى observability، وسلوك fallback، ومعايير تقييم، وتكامل مع البرامج الصناعية الحالية. الذكاء العام هو جزء واحد فقط من stack automation عملي.

الأهمية الحقيقية لـ VLA

أقوى حجة لـ VLA ليست أنها ستنتج دماغ robot عالميًا واحدًا غدًا. إنها أنها توفر تجريدًا أفضل لبناء سلوك robot على نطاق واسع. هذا هو الجزء الذي كانت الروبوتات تفتقده. لقد تحسن hardware. أصبحت المستشعرات أرخص. compute أفضل. لكن تعميم البرامج ظل هو عنق الزجاجة العنيد.

إذا استمرت VLA في التحسن، يمكنها أن تجعل robotات أسهل في التعليم، وأسرع في التكيف، وأرخص في النشر عبر البيئات الحقيقية شبه المنظمة. هذا لن ينهي الحاجة إلى الخبرة في المجال. بل سيغير مكان تطبيق تلك الخبرة.

تحصل الروبوتات أخيرًا على طبقة برمجية تبدو أقل شبهاً بحقيبة من الاستثناءات المصنوعة يدويًا وأكثر شبهاً بنظام مصمم لاستيعاب الجديد. بالنسبة لـ automation، قد يثبت ذلك أهمية أكبر من أي عامل شكل robot فردي.

نماذج Vision-Language-Action أصبحت طبقة التشغيل الحقيقية للروبوت