مدلهای Vision-Language-Action در حال تبدیل شدن به لایه عملیاتی واقعی ربات هستند

رباتیک سالهاست که بین دموهای تماشایی و محدودیتهای استقرار سرسختانه در نوسان بوده است. یک robot میتواند در یک ویدیو کشویی را باز کند، در دیگری لباسها را تا کند، و باز هم لحظهای که نور تغییر میکند، شیء ناآشنا است، یا توالی وظیفه طولانیتر از یک کلیپ با دقت تنظیم شده باشد، شکست میخورد. این شکاف دلیلی است که ظهور اخیر مدلهای vision-language-action اهمیت زیادی دارد. این سیستمها فقط یک روند جدید هوش مصنوعی در رباتیک نیستند. آنها تلاشی جدی برای ساختن یک لایه نرمافزاری عمومیتر بین نیت انسان و حرکت ماشین را نشان میدهند.
مفیدترین راه برای فکر کردن در مورد مدلهای vision-language-action، یا VLAها، نه به عنوان رباتهای گفتگوگر است. آنها یک لایه عملیاتی در حال ظهور هستند که سعی میکند سه چیزی را که رباتیک به طور تاریخی در پشتههای جداگانه مدیریت کرده است، ادغام کند: دیدن جهان، درک دستورالعملها و تولید عمل. اگر آنها به بهبود ادامه دهند، میتوانند برای رفتار robot کاری را انجام دهند که مدلهای foundation مدرن برای گردشکارهای متن و تصویر انجام دادند، یعنی جایگزینی pipelineهای شکننده و خاص وظیفه با یک رابط عمومی انعطافپذیرتر.
چرا رباتیک به یک انتزاع نرمافزاری جدید نیاز داشت
رباتیک سنتی دستاوردهای زیادی داشته است، به ویژه در محیطهای صنعتی ساختاریافته. اما معمولاً به تجزیه (decomposition) بستگی دارد. یک سیستم ادراک را مدیریت میکند، دیگری برنامهریزی میکند، دیگری حرکت را کنترل میکند، و مهندسان تلاش زیادی برای به هم پیوستن قطعات میکنند. این کار زمانی که وظایف تکراری هستند، محیطها محدود هستند، و ارزش هر درصد اضافی قابلیت اطمینان هزینه ادغام را توجیه میکند، جواب میدهد.
این مدل در محیطهای کمتر ساختاریافته شروع به از هم پاشیدن میکند. انبارها چیدمان خود را تغییر میدهند. خانهها پر از اشیاء جدید هستند. robotهای خدماتی با دستورالعملهای مبهم و بداههپردازی انسانی روبرو میشوند. پشته قدیمی میتواند این کارها را انجام دهد، اما معمولاً فقط پس از مهندسی سنگین، fine-tuning محیط و تعریف وظیفه محدود. یک robot که یک وظیفه جدید را انجام میدهد، اغلب هنوز به یک تلاش جدید برای جمعآوری data، سیاستهای جدید، یا مقداری scripting دستی نیاز دارد.
VLAها جذاب هستند زیرا بخش بیشتری از آن مشکل را در یک سیستم یادگیری واحد ادغام میکنند. به جای جداسازی سختگیرانه ادراک از عمل، آنها قصد دارند یک نگاشت مستقیم از ورودی چندوجهی، از جمله تصاویر و دستورات natural-language، به خروجیهای کنترل یاد بگیرند. در تئوری، این به robotها توانایی گستردهتری برای تعمیم در وظایف، اشیاء و زمینهها بدون شروع از ابتدا در هر بار میدهد.
پیشرفت تحقیق دیگر فرضی نیست
چندین پروژه این تغییر را ملموس کردهاند. OpenVLA، یک مدل open-source با 7B پارامتر که از همکاری استنفورد، برکلی، Toyota Research Institute، Google DeepMind، MIT و دیگران ساخته شده است، بر روی 970,000 قسمت robot از dataset Open X-Embodiment آموزش دیده است. اهمیت آن فقط مقیاس خام نیست. این نشان داد که یک VLA عمومیگرا میتواند چندین پلتفرم robot را کنترل کند، از طریق fine-tuning پارامتر-کارآمد تطبیق یابد و در طیفی از وظایف تعمیمدهی از سیستمهای قبلی بهتر عمل کند.
این زاویه open-source اهمیت دارد زیرا آزمایش را گسترش میدهد. رباتیک اغلب به دلیل دسترسی به hardware، data و سیستمهای proprietary بسته با مشکل مواجه بوده است. یک مدل open با جاهطلبیهای واقعی cross-embodiment، مانع را برای آزمایشگاهها و استارتآپهایی که میخواهند بر اساس پایههای مشترک بسازند به جای اختراع مجدد کل stack، کاهش میدهد.
بازیگران تجاری نیز به سرعت در حال حرکت هستند. مدل Helix شرکت Figure یک نمونه قوی از مسیری است که این دسته در حال حرکت به آن است. این شرکت آن را به عنوان یک VLA توصیف میکند که درک زبان، ادراک صحنه و کنترل آموخته شده را برای عملکرد کامل humanoid در قسمت بالایی بدن یکپارچه میکند. آنچه که از تیتر اصلی آشکارتر است، معماری است: یک سیستم استدلال کندتر تفسیر سطح بالاتر را مدیریت میکند در حالی که یک سیاست واکنشی سریعتر کنترل پیوسته را با فرکانس بالا تولید میکند. این تقسیمبندی یک حقیقت مهم در رباتیک را منعکس میکند. استدلال عمومی مفید است، اما ماشین هنوز برای بقا در دنیای فیزیکی به شایستگی حرکتی با latency پایین نیاز دارد.
تعمیمپذیری کل هدف است
آنچه VLAها را امیدوارکنندهتر از بسیاری از stackهای رباتیک قبلی میکند این است که آنها به صراحت تعمیمپذیری را هدف قرار میدهند نه فقط کارایی در یک وظیفه ثابت. Figure ادعا میکند Helix میتواند هزاران شیء خانگی ناآشنا را از طریق natural language دستکاری کند. OpenVLA بر تعمیمپذیری بصری، فیزیکی و معنایی در پسزمینههای دیده نشده، عوامل حواسپرتی، پیکربندی اشیاء و دستورالعملها تأکید کرد. حتی اگر این نتایج هنوز منعکسکننده تنظیمات آزمایشی محدود باشند، آنها در مسیر درست قرار دارند.
رباتیک همیشه با موارد خاص (edge cases) مجازات شده است. یک robot مفید، رباتی نیست که یک نمایش از پیش آماده شده کامل را انجام دهد. بلکه رباتی است که وقتی واقعیت با data آموزشی مطابقت ندارد، به آرامی عملکردش کاهش مییابد. رویکرد VLA جذاب است زیرا pretraining زبان و vision در مقیاس بزرگ ممکن است نوعی اولویتهای معنایی را فراهم کند که سیستمهای کنترل قدیمیتر فاقد آن بودند. یک robot دیگر نیازی به حفظ کردن یک شیء و یک مسیر ندارد. ممکن است بتواند عمل مربوطه را از درک گستردهتری از صحنهها، اشیاء و اهداف استنباط کند.
این میتواند در محیطهایی که "دم بلند" (long tail) غالب است، تحول آفرین باشد. خانهها، بیمارستانها، فضاهای خردهفروشی و فضاهای کاری مختلط انسانی دقیقاً به این دلیل دشوار هستند که حاوی نوآوری بیش از حد برای کتابخانههای رفتاری دستنویس هستند.
محدودیت از طراحی سیاست به حلقههای data در حال تغییر است
با این حال، VLAها به طور جادویی مشکل اصلی رباتیک را از بین نمیبرند. آنها آن را جابجا میکنند. چالش به data، ارزیابی و سازگاری ایمن تبدیل میشود. آموزش یک VLA مفید به مقادیر زیادی data مشاهده-عمل جفت شده در بسیاری از embodiments و وظایف نیاز دارد. جمعآوری آن گران است، استانداردسازی آن پیچیده است، و ترجمه آن در پلتفرمهای hardware دشوار است.
این دلیل اهمیت datasetهای مشترکی مانند Open X-Embodiment است، و اینکه چرا data مصنوعی، simulation و teleoperation همگی از نظر استراتژیک مهمتر میشوند. شرکتی با حلقههای data بهتر ممکن است در نهایت محصول robot قویتری نسبت به شرکتی با معماری مدل به ظاهر چشمگیرتر باشد. در رباتیک، توزیع تجربه هنوز سقف رفتار را شکل میدهد.
همچنین یک بررسی واقعیت hardware وجود دارد. برخلاف سیستمهای چت ابری، robotها تحت محدودیتهای latency، قدرت و قابلیت اطمینان کار میکنند. یک robot انبار یا دستیار humanoid نمیتواند برای هر تصمیم کوچک منتظر یک مدل راه دور بماند. بنابراین inference روی دستگاه و معماریهای تقسیمشده به طور فزایندهای منطقی به نظر میرسند. استدلال سطح بالا میتواند کندتر باشد. اجرای موتور نمیتواند.
چرا این یک داستان automation است، نه فقط یک داستان humanoid
بسیاری از بحثهای عمومی در مورد VLAها به سمت humanoidها کشیده میشود، زیرا humanoidها تیترهای بهتری میسازند. اما اهمیت گستردهتر automation است. یک لایه سیاست عمومیتر میتواند مدتها قبل از اینکه robotهای humanoid به محصولات مصرفی رایج تبدیل شوند، مفید باشد. manipulators متحرک، سیستمهای انبار، robotهای بازرسی و ماشینهای صنعتی تخصصی همگی با همان مشکل نرمافزاری روبرو هستند: سفارشیسازی بیش از حد برای هر گردشکار جدید.
اگر VLAها این بار سفارشیسازی را حتی به طور متوسط کاهش دهند، اقتصاد automation تغییر میکند. Integratorها میتوانند زمان کمتری را صرف hard-coding رفتارهای محدود کنند و زمان بیشتری را صرف شکل دادن به اهداف، مرزهای ایمنی و طراحی گردشکار کنند. این مهندسی رباتیک تخصصی را حذف نمیکند. بلکه آن مهندسی را قابل استفادهتر میکند.
به این معنا، VLAها میتوانند به حلقه گمشده بین اپراتورهای انسانی و hardware robot تبدیل شوند. به جای بیان هر وظیفه به عنوان یک توالی شکننده از دستورات خاص ماشین، تیمها ممکن است به طور فزایندهای نتایج مطلوب را توصیف کنند و اجازه دهند یک لایه سیاست عمومی بیشتر ترجمه را انجام دهد.
چه چیزی هنوز باید ثابت شود
احتیاط واضح است. تاریخ رباتیک پر از سیستمهایی است که عمومی به نظر میرسیدند تا زمانی که در معرض قفسه انبار اشتباه، وضعیت نورپردازی اشتباه یا دستورالعمل انسانی اشتباه قرار گرفتند. ایمنی دشوار باقی میماند. وظایف با افق طولانی هنوز شکننده هستند. انتقال cross-robot امیدوارکننده است اما حل نشده است. و تفاوت بزرگی بین مدلی که در یک محیط توسعه غنی از دمو کار میکند و مدلی که میتواند هر روز در production کار کند، وجود دارد.
همچنین این خطر وجود دارد که صنعت بیش از حد بر نمایش مدل به جای نظم استقرار تمرکز کند. یک لایه عملیاتی مفید برای robotها به قابلیت مشاهده (observability)، رفتار بازگشتی (fallback behavior)، استانداردهای ارزیابی و ادغام با نرمافزارهای صنعتی موجود نیاز خواهد داشت. هوش عمومی تنها بخشی از یک stack automation عملی است.
اهمیت واقعی VLAها
قویترین استدلال برای VLAها این نیست که آنها فردا یک مغز robot جهانی تولید خواهند کرد. بلکه این است که آنها یک انتزاع بهتر برای ساخت رفتار robot در مقیاس ارائه میدهند. این همان قطعهای است که رباتیک فاقد آن بوده است. hardware بهبود یافته است. سنسورها ارزانتر هستند. compute بهتر است. اما تعمیمپذیری نرمافزاری همچنان گلوگاه سرسخت باقی مانده است.
اگر VLAها به بهبود ادامه دهند، میتوانند آموزش robotها را آسانتر، سازگاری آنها را سریعتر و استقرار آنها را در محیطهای واقعی نیمهساختاریافته ارزانتر کنند. این نیاز به تخصص دامنه را از بین نمیبرد. بلکه محل اعمال آن تخصص را تغییر میدهد.
رباتیک سرانجام در حال دریافت یک لایه نرمافزاری است که کمتر شبیه به مجموعهای از استثنائات دستساز و بیشتر شبیه به سیستمی است که برای جذب نوآوری ساخته شده است. برای automation، این ممکن است مهمتر از هر عامل شکلدهنده robot باشد.