تقنية "الحلم" من أنثروبيك تتيح لوكلاء الذكاء الاصطناعي تحسين أنفسهم بين الجلسات

ما الذي يفعله الحلم فعليًا

في مايو 2026، كشفت أنثروبيك عن تقنية تُسميها "الحلم" — وهي طريقة تمكن وكلاء الذكاء الاصطناعي من مراجعة سجلات جلساتهم السابقة بشكل مستقل، وتحديد أنماط الأخطاء أو عدم الكفاءة، وإنشاء استراتيجيات سلوكية محدثة قبل نشرهم التالي. الاسم مستوحى من نوم الإنسان: كما يقوم الدماغ البشري بتوحيد الذاكرة وممارسة المهارات أثناء نوم الريم (REM)، أصبح لدى وكلاء أنثروبيك الآن مرحلة غير متصلة منظمة يعالجون فيها الخبرات ويتحسنون.

هذا يختلف عن Fine-tuning التقليدي أو Reinforcement Learning from Human Feedback (RLHF). الحلم يحدث بين الجلسات، دون الحاجة إلى إنسان لوضع علامات على النتائج أو تقديم إشارات مكافأة. الوكيل يفحص مسارات أفعاله الخاصة، ويحدد النقاط التي أدت فيها قراراته إلى نتائج دون المستوى الأمثل، ويحدث تمثيله الداخلي للاستراتيجية وفقًا لذلك.

لماذا هذا مهم للذكاء الاصطناعي الوكالي

يأتي هذا الإعلان في وقت تنتقل فيه وكلاء الذكاء الاصطناعي — وهي أنظمة تكمل مهام متعددة الخطوات بشكل مستقل عبر بيئات برمجية — من المختبرات البحثية إلى الإنتاج. وكلاء أنثروبيك القائمون على Claude يُستخدمون بالفعل من قبل عملاء مؤسسيين لمهام مثل مراجعة الكود، ومعالجة المستندات، وسير عمل خدمة العملاء. تقنية الحلم تعالج مباشرة أحد القيود الأساسية للوكلاء الحاليين: فهم يكررون نفس الأخطاء مرارًا ما لم يتدخل إنسان.

فكر في وكيل خدمة عملاء يحول باستمرار فئة معينة من الشكاوى إلى المكان الخطأ. بدون الحلم، لإصلاح هذا يحتاج إنسان إلى ملاحظة النمط، ووضع علامات على الأمثلة، وتفعيل إعادة التدريب. مع الحلم، يلاحظ الوكيل النمط بنفسه خلال مرحلة المراجعة غير المتصلة ويضبط قواعده التوجيهية — ربما قبل أن يصعد أي عميل المشكلة.

الهندسة التقنية

لم تنشر أنثروبيك ورقة تقنية كاملة بعد، لكن استنادًا إلى المعلومات المتاحة، تعمل عملية الحلم على ثلاث مراحل. أولاً، يولد الوكيل سجلات منظمة بعد الجلسة تتضمن ليس فقط تسلسل الإجراءات ولكن أيضًا درجات ثقة الوكيل وآثاره المنطقية الداخلية عند كل نقطة قرار. ثانيًا، خلال مرحلة الحلم غير المتصلة، تقوم وحدة تحليلية منفصلة بمعالجة هذه السجلات باستخدام تحليل المقارنة — مقارنة القرارات عالية الثقة التي أدت إلى نتائج جيدة بالقرارات منخفضة الثقة أو النتائج التي تم الإبلاغ عنها من قبل الأنظمة النهائية. ثالثًا، يكتب الوكيل ملاحظات استراتيجية محدثة في وحدة ذاكرة دائمة يتم تحميلها في بداية الجلسة التالية.

هذه الهندسة تجعل عملية الحلم خفيفة من الناحية الحسابية. بدلاً من إعادة تدريب أوزان النموذج — الأمر الذي يتطلب موارد GPU كبيرة — يقوم الوكيل بتحديث ذاكرة صغيرة ومنظمة توجه سلوكه. هذا يجعل الحلم عمليًا للتشغيل المتكرر، ربما بعد كل جلسة.

مقارنة مع أساليب التحسين الذاتي الأخرى

نموذجا Gemini من شركة DeepMind ضمنا شكلاً من التفكير السياقي حيث يفكر الوكلاء بصوت عالٍ في خطواتهم السابقة قبل المتابعة. ذاكرة مستوى المشغل في ChatGPT من OpenAI تسمح بنقل تفضيلات المستخدم الدائمة عبر الجلسات. لكن هذه الأساليب موجهة للمستخدم: تتكيف مع احتياجات المستخدم المعلنة، وليس مع عيوب أداء الوكيل نفسه.

الحلم من أنثروبيك موجه للوكيل: صُمم خصيصًا لتمكين النظام من تحديد أنماط فشله الخاصة. هذا نوع مختلف نوعيًا من التحسين الذاتي. أقرب سابقة أكاديمية هي العمل على reflexion (شين وآخرون، 2023)، الذي أظهر أن وكلاء نموذج اللغة الذين يتلقون تغذية راجعة شفهية عن إخفاقاتهم تحسنوا بشكل كبير في مهام البرمجة واتخاذ القرار. يبدو أن أنثروبيك تأخذ تلك الفكرة وتجعلها مستقلة تمامًا — دون الحاجة إلى تغذية راجعة خارجية.

بُعد السلامة

أنظمة الذكاء الاصطناعي ذاتية التحسين تثير أسئلة سلامة فورية. إذا كان بإمكان الوكيل تعديل استراتيجياته السلوكية، فما الذي يمنعه من تحسين مقاييس بديلة تنحرف عن الهدف المقصود؟ أنثروبيك عالجت هذا مباشرة، ذاكرة أن تحديثات الحلم مقيدة بذاكرة استراتيجية منظمة تكون للقراءة فقط أثناء تنفيذ المهمة — لا يمكن للوكيل تعديل سياسات أفعاله في منتصف المهمة. التحديثات التي تتم خلال مرحلة الحلم يتم تسجيلها ويمكن للمشغلين تدقيقها أو التراجع عنها.

بالإضافة إلى ذلك، تعمل وحدة الحلم تحت نفس مبادئ الذكاء الاصطناعي الدستورية التي تحكم السلوك الأساسي لـ Claude. يتم رفض تحديثات الاستراتيجية التي تتعارض مع المبادئ التوجيهية الدستورية خلال مرحلة الحلم نفسها. هذا يخلق هيكل سلامة من طبقتين: تدريب التوافق للنموذج الأساسي، بالإضافة إلى فحص تحقق من أي تغييرات استراتيجية مقترحة أثناء الحلم.

سياق النشر بقيمة 1.5 مليار دولار

أعلنت أنثروبيك في الوقت نفسه عن مشروع نشر ذكاء اصطناعي بقيمة 1.5 مليار دولار مع شركات أسهم خاصة كبرى في وول ستريت، بهدف صريح هو نشر الذكاء الاصطناعي الوكالي عبر عمليات الشركات التابعة للمحفظة. تقنية الحلم محورية في استراتيجية النشر هذه: القدرة على تحسين الذات بعد كل مشاركة تجعل الوكلاء أكثر فعالية من حيث التكلفة بمرور الوقت، لأن مكاسب الأداء تتراكم دون الحاجة إلى زيادات متناسبة في الإشراف البشري.

هذا يغير المعادلة الاقتصادية لنشر الذكاء الاصطناعي المؤسسي. النشر التقليدي للذكاء الاصطناعي يتطلب مراجعة بشرية مستمرة ودورات إعادة تدريب دورية. وكيل بقدرات الحلم يقلص تلك التكاليف بشكل كبير، وهو ما يجعله جذابًا للمشغلين الماليين الذين يتطلعون إلى توسيع نطاق الذكاء الاصطناعي عبر عشرات الشركات التابعة للمحفظة في وقت واحد.

ما يجب متابعته بعد ذلك

أشارت أنثروبيك إلى أن تقريرًا تقنيًا عن الحلم سيرافق الإصدار الرئيسي التالي لـ Claude. المقاييس الرئيسية التي يجب تدقيقها ستكون: مقدار تحسين الأداء الذي يتم تحقيقه لكل دورة حلم، وكيف يتعامل النظام مع المدخلات الخصومة المصممة لخداع الوكيل لتبني استراتيجيات سيئة، وما إذا كانت وحدة الذاكرة تقدم أي سطح هجوم جديد لحقن البرمجيات الخبيثة (Prompt Injection).

بالنسبة للممارسين الذين ينشرون أنظمة وكالية اليوم، الاستخلاص العملي واضح: صمم سير عمل وكيلك لالتقاط سجلات أفعال غنية مع إشارات النتائج. عندما تصبح الوكلاء الممكنة بالحلم متاحة في API الخاص بـ Claude، ستكون تلك السجلات هي الوقود. المؤسسات التي تجمع بالفعل تغذية راجعة منظمة حول أداء الوكيل ستكون في وضع يسمح لها بالاستفادة فورًا.