تکنیک «Dreaming» شرکت Anthropic؛ عامل‌های هوش مصنوعی بین جلسات خود را بهبود می‌بخشند

عملکرد واقعی Dreaming

در می ۲۰۲۶، Anthropic تکنیکی به نام «Dreaming» را معرفی کرد؛ روشی که به عامل‌های هوش مصنوعی امکان می‌دهد به طور خودکار گزارش‌های جلسات گذشته خود را مرور کرده، الگوهای خطا یا ناکارآمدی را شناسایی کرده و استراتژی‌های به‌روز شده برای رفتار خود قبل از استقرار بعدی تولید کنند. این نام تشبیهی به خواب انسان است: همان‌طور که مغز انسان در طول خواب REM حافظه را تثبیت و مهارت‌ها را تمرین می‌کند، عامل‌های Anthropic اکنون یک فاز آفلاین ساختاریافته دارند که در آن تجربه را پردازش و بهبود می‌یابند.

این با Fine-tuning استاندارد یا یادگیری تقویتی از بازخورد انسانی (RLHF) متفاوت است. Dreaming بین جلسات انجام می‌شود و نیازی به برچسب‌گذاری نتایج توسط انسان یا ارائه سیگنال‌های پاداش ندارد. عامل ردیابی اقدامات خود را بررسی می‌کند، مواردی که تصمیماتش به نتایج نامطلوب منجر شده را مشخص می‌کند و نمایش داخلی استراتژی خود را به روز می‌کند.

چرا این موضوع برای AI Agentها مهم است

این اعلامیه در زمانی منتشر می‌شود که عامل‌های هوش مصنوعی (سیستم‌هایی که به طور خودکار وظایف چند مرحله‌ای را در محیط‌های نرم‌افزاری انجام می‌دهند) از آزمایشگاه‌های تحقیقاتی به تولید وارد می‌شوند. عامل‌های مبتنی بر Claude شرکت Anthropic هم‌اکنون توسط مشتریان سازمانی برای کارهایی مانند بازبینی کد، پردازش اسناد و گردش‌های کاری خدمات مشتری استفاده می‌شوند. تکنیک Dreaming مستقیماً یکی از محدودیت‌های اصلی عامل‌های فعلی را برطرف می‌کند: آنها همان اشتباهات را تکرار می‌کنند مگر اینکه انسانی مداخله کند.

یک عامل خدمات مشتری را در نظر بگیرید که به طور مداوم نوع خاصی از شکایت را به اشتباه هدایت می‌کند. بدون Dreaming، رفع این مشکل نیاز به یک انسان دارد که الگو را تشخیص دهد، مثال‌ها را برچسب‌گذاری کند و آموزش مجدد را آغاز کند. با Dreaming، عامل خودش الگو را طی فاز مرور آفلاین تشخیص داده و روش‌های هدایت خود را تنظیم می‌کند، احتمالاً قبل از اینکه مشتری مشکل را به مراتب بالاتر ارجاع دهد.

معماری فنی

Anthropic هنوز مقاله فنی کاملی منتشر نکرده، اما بر اساس اطلاعات موجود، فرآیند Dreaming در سه مرحله کار می‌کند. اول، عامل گزارش‌های ساختاریافته پس از جلسه تولید می‌کند که شامل توالی اقدامات و همچنین نمرات اطمینان عامل و ردیابی استدلال داخلی در هر نقطه تصمیم‌گیری است. دوم، طی فاز آفلاین Dreaming، یک ماژول تحلیلی جداگانه این گزارش‌ها را با استفاده از تحلیل تضاد (contrastive analysis) پردازش می‌کند و تصمیمات با اطمینان بالا که به نتایج خوب منجر شده‌اند را با تصمیمات با اطمینان پایین یا نتایجی که توسط سیستم‌های پایین‌دستی پرچم‌گذاری شده‌اند مقایسه می‌کند. سوم، عامل یادداشت‌های استراتژی به‌روز شده را در یک ماژول حافظه پایدار می‌نویسد که در شروع جلسه بعدی بارگذاری می‌شود.

این معماری فرآیند Dreaming را از نظر محاسباتی سبک نگه می‌دارد. به جای آموزش مجدد وزن‌های مدل (که نیاز به منابع GPU قابل توجهی دارد)، عامل یک حافظه ساختاریافته کوچک را به‌روز می‌کند که رفتار آن را هدایت می‌کند. این باعث می‌شود Dreaming برای اجرای مکرر، احتمالاً بعد از هر جلسه، عملی باشد.

مقایسه با رویکردهای دیگر خودبهبودی

مدل‌های Gemini شرکت DeepMind شکلی از بازتاب درون متنی (in-context reflection) را پیاده‌سازی کرده‌اند که در آن عامل‌ها قبل از ادامه دادن، درباره مراحل قبلی خود با صدای بلند استدلال می‌کنند. حافظه سطح اپراتور OpenAI در ChatGPT به اولویت‌های پایدار کاربر اجازه می‌دهد در جلسات مختلف منتقل شوند. اما این رویکردها کاربرمحور هستند: آنها با نیازهای اعلامی کاربر تطبیق می‌یابند، نه با کاستی‌های عملکردی خود عامل.

Dreaming شرکت Anthropic عامل‌محور است: به طور خاص طراحی شده تا سیستم بتواند حالت‌های شکست خود را شناسایی کند. این یک نوع کیفی متفاوت از خودبهبودی است. نزدیکترین پیشینه آکادمیک کار روی reflexion (Shinn et al., 2023) است که نشان داد عامل‌های مبتنی بر مدل زبانی که بازخورد شفاهی در مورد شکست‌های خود دریافت می‌کنند، در وظایف کدنویسی و تصمیم‌گیری بهبود قابل توجهی می‌یابند. به نظر می‌رسد Anthropic آن insight را گرفته و کاملاً خودمختار کرده است - بدون نیاز به بازخورد خارجی.

بعد ایمنی

سیستم‌های هوش مصنوعی خودبهبودگر سوالات ایمنی فوری را مطرح می‌کنند. اگر یک عامل بتواند استراتژی‌های رفتاری خود را تغییر دهد، چه چیزی مانع از بهینه‌سازی آن برای معیارهای نیابتی (proxy metrics) می‌شود که از هدف مورد نظر فاصله دارند؟ Anthropic مستقیماً به این موضوع پرداخته و اعلام کرده است که به‌روزرسانی‌های Dreaming به یک حافظه استراتژی ساختاریافته محدود می‌شود که در طول اجرای وظیفه فقط خواندنی است - عامل نمی‌تواند خط مشی‌های اقدام خود را در میان وظیفه تغییر دهد. به‌روزرسانی‌های انجام شده در فاز Dreaming ثبت شده و می‌توانند توسط اپراتورها ممیزی یا بازگردانی شوند.

علاوه بر این، ماژول Dreaming تحت همان اصول AI مشروطه (Constitutional AI) که رفتار پایه Claude را هدایت می‌کند، عمل می‌کند. به‌روزرسانی‌های استراتژی که با دستورالعمل‌های مشروطه در تضاد هستند، در خود فاز Dreaming رد می‌شوند. این یک ساختار ایمنی دو لایه ایجاد می‌کند: آموزش هم‌راستایی مدل پایه، به اضافه یک گذر اعتبارسنجی بر روی هر تغییر استراتژی پیشنهادی در طول Dreaming.

زمینه استقرار ۱.۵ میلیارد دلاری

Anthropic هم‌زمان یک سرمایه‌گذاری استقرار هوش مصنوعی به ارزش ۱.۵ میلیارد دلار با شرکت‌های بزرگ سرمایه‌گذاری خصوصی وال‌استریت اعلام کرد، با هدف صریح استقرار عامل‌های AI در عملیات شرکت‌های پرتفوی. تکنیک Dreaming محور این استراتژی استقرار است: توانایی عامل‌ها برای خودبهبودی پس از هر تعامل باعث می‌شود که آنها در طول زمان به طور قابل توجهی مقرون‌به‌صرفه‌تر شوند، زیرا افزایش عملکرد بدون نیاز به افزایش متناسب در نظارت انسانی تجمیع می‌شود.

این محاسبات اقتصادی استقرار AI سازمانی را تغییر می‌دهد. یک استقرار متعارف AI نیاز به بازبینی مداوم انسانی و چرخه‌های آموزش مجدد دوره‌ای دارد. یک عامل با قابلیت Dreaming آن سربار را به طور قابل توجهی کاهش می‌دهد، که دقیقاً همان چیزی است که آن را برای اپراتورهای مالی که به دنبال مقیاس‌سازی AI در ده‌ها شرکت پرتفوی هم‌زمان هستند جذاب می‌کند.

چیزهایی که باید بعداً دنبال کرد

Anthropic اعلام کرده است که یک گزارش فنی درباره Dreaming به همراه انتشار بعدی Claude منتشر خواهد شد. معیارهای کلیدی که باید بررسی شوند عبارتند از: میزان بهبود عملکرد در هر چرخه Dreaming، نحوه برخورد سیستم با ورودی‌های خصمانه طراحی شده برای فریب عامل به اتخاذ استراتژی‌های بد، و اینکه آیا ماژول حافظه سطح حمله جدیدی برای تزریق پرامپت (prompt injection) ایجاد می‌کند یا خیر.

برای فعالانی که امروز سیستم‌های عامل را مستقر می‌کنند، نکته عملی ساده است: گردش‌های کاری عامل خود را طوری طراحی کنید که لاگ‌های اقدام غنی با سیگنال‌های نتیجه را ضبط کنند. هنگامی که عامل‌های مجهز به Dreaming در API Claude در دسترس قرار گیرند، آن لاگ‌ها سوخت خواهند بود. سازمان‌هایی که هم‌اکنون در حال جمع‌آوری بازخورد ساختاریافته درباره عملکرد عامل هستند، قادر خواهند بود بلافاصله بهره‌مند شوند.