مدل‌های Vision-Language-Action: لایه عملیاتی آینده ربات

رباتیک سال‌هاست که بین دموهای تماشایی و محدودیت‌های استقرار سرسختانه در نوسان بوده است. یک robot می‌تواند در یک ویدیو کشویی را باز کند، در دیگری لباس‌ها را تا کند، و باز هم لحظه‌ای که نور تغییر می‌کند، شیء ناآشنا است، یا توالی وظیفه طولانی‌تر از یک کلیپ با دقت تنظیم شده باشد، شکست می‌خورد. این شکاف دلیلی است که ظهور اخیر مدل‌های vision-language-action اهمیت زیادی دارد. این سیستم‌ها فقط یک روند جدید هوش مصنوعی در رباتیک نیستند. آنها تلاشی جدی برای ساختن یک لایه نرم‌افزاری عمومی‌تر بین نیت انسان و حرکت ماشین را نشان می‌دهند.

مفیدترین راه برای فکر کردن در مورد مدل‌های vision-language-action، یا VLAها، نه به عنوان ربات‌های گفتگوگر است. آنها یک لایه عملیاتی در حال ظهور هستند که سعی می‌کند سه چیزی را که رباتیک به طور تاریخی در پشته‌های جداگانه مدیریت کرده است، ادغام کند: دیدن جهان، درک دستورالعمل‌ها و تولید عمل. اگر آنها به بهبود ادامه دهند، می‌توانند برای رفتار robot کاری را انجام دهند که مدل‌های foundation مدرن برای گردش‌کارهای متن و تصویر انجام دادند، یعنی جایگزینی pipelineهای شکننده و خاص وظیفه با یک رابط عمومی انعطاف‌پذیرتر.

چرا رباتیک به یک انتزاع نرم‌افزاری جدید نیاز داشت

رباتیک سنتی دستاوردهای زیادی داشته است، به ویژه در محیط‌های صنعتی ساختاریافته. اما معمولاً به تجزیه (decomposition) بستگی دارد. یک سیستم ادراک را مدیریت می‌کند، دیگری برنامه‌ریزی می‌کند، دیگری حرکت را کنترل می‌کند، و مهندسان تلاش زیادی برای به هم پیوستن قطعات می‌کنند. این کار زمانی که وظایف تکراری هستند، محیط‌ها محدود هستند، و ارزش هر درصد اضافی قابلیت اطمینان هزینه ادغام را توجیه می‌کند، جواب می‌دهد.

این مدل در محیط‌های کمتر ساختاریافته شروع به از هم پاشیدن می‌کند. انبارها چیدمان خود را تغییر می‌دهند. خانه‌ها پر از اشیاء جدید هستند. robotهای خدماتی با دستورالعمل‌های مبهم و بداهه‌پردازی انسانی روبرو می‌شوند. پشته قدیمی می‌تواند این کارها را انجام دهد، اما معمولاً فقط پس از مهندسی سنگین، fine-tuning محیط و تعریف وظیفه محدود. یک robot که یک وظیفه جدید را انجام می‌دهد، اغلب هنوز به یک تلاش جدید برای جمع‌آوری data، سیاست‌های جدید، یا مقداری scripting دستی نیاز دارد.

VLAها جذاب هستند زیرا بخش بیشتری از آن مشکل را در یک سیستم یادگیری واحد ادغام می‌کنند. به جای جداسازی سخت‌گیرانه ادراک از عمل، آنها قصد دارند یک نگاشت مستقیم از ورودی چندوجهی، از جمله تصاویر و دستورات natural-language، به خروجی‌های کنترل یاد بگیرند. در تئوری، این به robotها توانایی گسترده‌تری برای تعمیم در وظایف، اشیاء و زمینه‌ها بدون شروع از ابتدا در هر بار می‌دهد.

پیشرفت تحقیق دیگر فرضی نیست

چندین پروژه این تغییر را ملموس کرده‌اند. OpenVLA، یک مدل open-source با 7B پارامتر که از همکاری استنفورد، برکلی، Toyota Research Institute، Google DeepMind، MIT و دیگران ساخته شده است، بر روی 970,000 قسمت robot از dataset Open X-Embodiment آموزش دیده است. اهمیت آن فقط مقیاس خام نیست. این نشان داد که یک VLA عمومی‌گرا می‌تواند چندین پلتفرم robot را کنترل کند، از طریق fine-tuning پارامتر-کارآمد تطبیق یابد و در طیفی از وظایف تعمیم‌دهی از سیستم‌های قبلی بهتر عمل کند.

این زاویه open-source اهمیت دارد زیرا آزمایش را گسترش می‌دهد. رباتیک اغلب به دلیل دسترسی به hardware، data و سیستم‌های proprietary بسته با مشکل مواجه بوده است. یک مدل open با جاه‌طلبی‌های واقعی cross-embodiment، مانع را برای آزمایشگاه‌ها و استارت‌آپ‌هایی که می‌خواهند بر اساس پایه‌های مشترک بسازند به جای اختراع مجدد کل stack، کاهش می‌دهد.

بازیگران تجاری نیز به سرعت در حال حرکت هستند. مدل Helix شرکت Figure یک نمونه قوی از مسیری است که این دسته در حال حرکت به آن است. این شرکت آن را به عنوان یک VLA توصیف می‌کند که درک زبان، ادراک صحنه و کنترل آموخته شده را برای عملکرد کامل humanoid در قسمت بالایی بدن یکپارچه می‌کند. آنچه که از تیتر اصلی آشکارتر است، معماری است: یک سیستم استدلال کندتر تفسیر سطح بالاتر را مدیریت می‌کند در حالی که یک سیاست واکنشی سریع‌تر کنترل پیوسته را با فرکانس بالا تولید می‌کند. این تقسیم‌بندی یک حقیقت مهم در رباتیک را منعکس می‌کند. استدلال عمومی مفید است، اما ماشین هنوز برای بقا در دنیای فیزیکی به شایستگی حرکتی با latency پایین نیاز دارد.

تعمیم‌پذیری کل هدف است

آنچه VLAها را امیدوارکننده‌تر از بسیاری از stackهای رباتیک قبلی می‌کند این است که آنها به صراحت تعمیم‌پذیری را هدف قرار می‌دهند نه فقط کارایی در یک وظیفه ثابت. Figure ادعا می‌کند Helix می‌تواند هزاران شیء خانگی ناآشنا را از طریق natural language دستکاری کند. OpenVLA بر تعمیم‌پذیری بصری، فیزیکی و معنایی در پس‌زمینه‌های دیده نشده، عوامل حواس‌پرتی، پیکربندی اشیاء و دستورالعمل‌ها تأکید کرد. حتی اگر این نتایج هنوز منعکس‌کننده تنظیمات آزمایشی محدود باشند، آنها در مسیر درست قرار دارند.

رباتیک همیشه با موارد خاص (edge cases) مجازات شده است. یک robot مفید، رباتی نیست که یک نمایش از پیش آماده شده کامل را انجام دهد. بلکه رباتی است که وقتی واقعیت با data آموزشی مطابقت ندارد، به آرامی عملکردش کاهش می‌یابد. رویکرد VLA جذاب است زیرا pretraining زبان و vision در مقیاس بزرگ ممکن است نوعی اولویت‌های معنایی را فراهم کند که سیستم‌های کنترل قدیمی‌تر فاقد آن بودند. یک robot دیگر نیازی به حفظ کردن یک شیء و یک مسیر ندارد. ممکن است بتواند عمل مربوطه را از درک گسترده‌تری از صحنه‌ها، اشیاء و اهداف استنباط کند.

این می‌تواند در محیط‌هایی که "دم بلند" (long tail) غالب است، تحول آفرین باشد. خانه‌ها، بیمارستان‌ها، فضاهای خرده‌فروشی و فضاهای کاری مختلط انسانی دقیقاً به این دلیل دشوار هستند که حاوی نوآوری بیش از حد برای کتابخانه‌های رفتاری دست‌نویس هستند.

محدودیت از طراحی سیاست به حلقه‌های data در حال تغییر است

با این حال، VLAها به طور جادویی مشکل اصلی رباتیک را از بین نمی‌برند. آنها آن را جابجا می‌کنند. چالش به data، ارزیابی و سازگاری ایمن تبدیل می‌شود. آموزش یک VLA مفید به مقادیر زیادی data مشاهده-عمل جفت شده در بسیاری از embodiments و وظایف نیاز دارد. جمع‌آوری آن گران است، استانداردسازی آن پیچیده است، و ترجمه آن در پلتفرم‌های hardware دشوار است.

این دلیل اهمیت datasetهای مشترکی مانند Open X-Embodiment است، و اینکه چرا data مصنوعی، simulation و teleoperation همگی از نظر استراتژیک مهم‌تر می‌شوند. شرکتی با حلقه‌های data بهتر ممکن است در نهایت محصول robot قوی‌تری نسبت به شرکتی با معماری مدل به ظاهر چشمگیرتر باشد. در رباتیک، توزیع تجربه هنوز سقف رفتار را شکل می‌دهد.

همچنین یک بررسی واقعیت hardware وجود دارد. برخلاف سیستم‌های چت ابری، robotها تحت محدودیت‌های latency، قدرت و قابلیت اطمینان کار می‌کنند. یک robot انبار یا دستیار humanoid نمی‌تواند برای هر تصمیم کوچک منتظر یک مدل راه دور بماند. بنابراین inference روی دستگاه و معماری‌های تقسیم‌شده به طور فزاینده‌ای منطقی به نظر می‌رسند. استدلال سطح بالا می‌تواند کندتر باشد. اجرای موتور نمی‌تواند.

چرا این یک داستان automation است، نه فقط یک داستان humanoid

بسیاری از بحث‌های عمومی در مورد VLAها به سمت humanoidها کشیده می‌شود، زیرا humanoidها تیترهای بهتری می‌سازند. اما اهمیت گسترده‌تر automation است. یک لایه سیاست عمومی‌تر می‌تواند مدت‌ها قبل از اینکه robotهای humanoid به محصولات مصرفی رایج تبدیل شوند، مفید باشد. manipulators متحرک، سیستم‌های انبار، robotهای بازرسی و ماشین‌های صنعتی تخصصی همگی با همان مشکل نرم‌افزاری روبرو هستند: سفارشی‌سازی بیش از حد برای هر گردش‌کار جدید.

اگر VLAها این بار سفارشی‌سازی را حتی به طور متوسط کاهش دهند، اقتصاد automation تغییر می‌کند. Integratorها می‌توانند زمان کمتری را صرف hard-coding رفتارهای محدود کنند و زمان بیشتری را صرف شکل دادن به اهداف، مرزهای ایمنی و طراحی گردش‌کار کنند. این مهندسی رباتیک تخصصی را حذف نمی‌کند. بلکه آن مهندسی را قابل استفاده‌تر می‌کند.

به این معنا، VLAها می‌توانند به حلقه گمشده بین اپراتورهای انسانی و hardware robot تبدیل شوند. به جای بیان هر وظیفه به عنوان یک توالی شکننده از دستورات خاص ماشین، تیم‌ها ممکن است به طور فزاینده‌ای نتایج مطلوب را توصیف کنند و اجازه دهند یک لایه سیاست عمومی بیشتر ترجمه را انجام دهد.

چه چیزی هنوز باید ثابت شود

احتیاط واضح است. تاریخ رباتیک پر از سیستم‌هایی است که عمومی به نظر می‌رسیدند تا زمانی که در معرض قفسه انبار اشتباه، وضعیت نورپردازی اشتباه یا دستورالعمل انسانی اشتباه قرار گرفتند. ایمنی دشوار باقی می‌ماند. وظایف با افق طولانی هنوز شکننده هستند. انتقال cross-robot امیدوارکننده است اما حل نشده است. و تفاوت بزرگی بین مدلی که در یک محیط توسعه غنی از دمو کار می‌کند و مدلی که می‌تواند هر روز در production کار کند، وجود دارد.

همچنین این خطر وجود دارد که صنعت بیش از حد بر نمایش مدل به جای نظم استقرار تمرکز کند. یک لایه عملیاتی مفید برای robotها به قابلیت مشاهده (observability)، رفتار بازگشتی (fallback behavior)، استانداردهای ارزیابی و ادغام با نرم‌افزارهای صنعتی موجود نیاز خواهد داشت. هوش عمومی تنها بخشی از یک stack automation عملی است.

اهمیت واقعی VLAها

قوی‌ترین استدلال برای VLAها این نیست که آنها فردا یک مغز robot جهانی تولید خواهند کرد. بلکه این است که آنها یک انتزاع بهتر برای ساخت رفتار robot در مقیاس ارائه می‌دهند. این همان قطعه‌ای است که رباتیک فاقد آن بوده است. hardware بهبود یافته است. سنسورها ارزان‌تر هستند. compute بهتر است. اما تعمیم‌پذیری نرم‌افزاری همچنان گلوگاه سرسخت باقی مانده است.

اگر VLAها به بهبود ادامه دهند، می‌توانند آموزش robotها را آسان‌تر، سازگاری آنها را سریع‌تر و استقرار آنها را در محیط‌های واقعی نیمه‌ساختاریافته ارزان‌تر کنند. این نیاز به تخصص دامنه را از بین نمی‌برد. بلکه محل اعمال آن تخصص را تغییر می‌دهد.

رباتیک سرانجام در حال دریافت یک لایه نرم‌افزاری است که کمتر شبیه به مجموعه‌ای از استثنائات دست‌ساز و بیشتر شبیه به سیستمی است که برای جذب نوآوری ساخته شده است. برای automation، این ممکن است مهم‌تر از هر عامل شکل‌دهنده robot باشد.

مدل‌های Vision-Language-Action در حال تبدیل شدن به لایه عملیاتی واقعی ربات هستند