نماذج التفكير تعيد تشكيل طريقة استخدام المطورين للذكاء الاصطناعي — ما الذي تغير مع o3 وFable 5 وGemini 3.5

عندما أطلقت OpenAI نموذجها o1 في أواخر 2024، فعل شيئًا مختلفًا نوعيًا عن سابقيه. توقف قبل الإجابة على الأسئلة الصعبة — أحيانًا لعدة ثوانٍ — وعندما أجاب، أظهر خطوات عمله. ليس فقط الإجابة، بل سلسلة الخطوات الوسيطة التي قادت إليها. قفزت نتائج المعايير (Benchmarks). تحسنت جودة الكود في المسائل المعقدة. أصبحت الرياضيات أفضل فجأة، ليس بقليل بل بكثير.

ذلك التحول — من نماذج لغة تقوم بمطابقة الأنماط إلى نماذج لغة تستنتج — أصبح الآن سائدًا. يمثل نموذجا o3 و o3-mini نماذج الاستدلال الإنتاجية الحالية لـ OpenAI. نموذج Fable 5 من Anthropic (أُطلق في يونيو 2026) يدمج الاستدلال الممتد كقدرة من الدرجة الأولى ضمن مستواه الرائد. نموذج Gemini 3.5 Flash من Google يُطرح كخيار الاستدلال الفعال، حيث يضحي ببعض الجودة مقابل السرعة. لم يعد عصر الذكاء الاصطناعي القائم على الاستدلال مجرد معاينة — بل أصبح الوضع الافتراضي للمهام الجادة. ولكن ما يعنيه ذلك فعليًا لكيفية بناء ونشر المطورين للذكاء الاصطناعي أقل فهمًا مما توحي به عناوين المعايير.

ما الذي تفعله نماذج الاستدلال بشكل مختلف فعليًا؟

الآلية الأساسية هي توسيع نطاق الحوسبة أثناء وقت الاختبار (Test-time compute scaling) — أي السماح للنموذج بإنفاق حوسبة أكثر في زمن الاستدلال بدلاً من حصرها في زمن التدريب فقط. ينتج نموذج اللغة التقليدي تمريرة أمامية واحدة لكل رمز (Token). أما نموذج الاستدلال فيولد مسودة من الرموز الوسيطة (التفكير الذي يكون أحيانًا مرئيًا وأحيانًا مخفيًا)، ثم يصوغ إجابة نهائية من تلك العملية. يقوم النموذج أساسًا بتشغيل مسودات متعددة داخليًا قبل الالتزام بمخرجات.

هذا مهم لفئة محددة من المشكلات: تلك التي تعتمد فيها الإجابة الصحيحة على تنفيذ صحيح لسلسلة من الخطوات حيث تتراكم الأخطاء المبكرة لتؤدي إلى فشل متأخر. الرياضيات، المنطق الرمزي، توليد الكود متعدد الخطوات، التخطيط في ظل قيود، وأنواع معينة من التحليل — كلها تندرج تحت هذا النمط. لا يقدم النموذج إجابة أسرع أو بلغة أكثر ثقة فحسب — بل يرتكب أخطاء أقل فعليًا في المسائل التي تتطلب إتقان الخطوات الوسيطة.

الأهم أن هذا لا يحسن جميع المهام بالتساوي. بالنسبة لاسترجاع الحقائق، الكتابة الإبداعية، التلخيص، التصنيف، والتوليد البسيط، لا تقدم نماذج الاستدلال تحسنًا يذكر مقارنة بنظيراتها الأساسية بينما تكلف أكثر بكثير. سؤال مثل "ما عاصمة فرنسا؟" لا يستفيد من التفكير الممتد.

كيف تختلف النماذج الرئيسية؟

OpenAI o3 هو حاليًا أفضل نموذج استدلال أداءً على معايير مثل ARC-AGI (الذي يختبر الاستدلال الجديد بدلاً من تذكر الأنماط)، SWE-bench (هندسة برمجيات من مشكلات حقيقية على GitHub)، والرياضيات التنافسية. سجل o3 88% على ARC-AGI، وهو اختبار فشلت فيه نماذج متقدمة سابقة بنسبة 30-40%. وسجل 71.7% على SWE-bench Verified، حيث حل معظم مهام هندسة البرمجيات التي كانت ستستغرق ساعات من مطور مبتدئ. التكلفة متناسبة: o3 مسعر بـ $10 لكل مليون رمز إدخال، و $40 لكل مليون رمز إخراج — أي حوالي 10 أضعاف سعر GPT-4o في معظم حالات الاستخدام.

Claude Fable 5 (النموذج الرائد لـ Anthropic في يونيو 2026) يدمج الاستدلال بشكل أعمق من بنية o-series. بدلاً من مستوى نموذج منفصل، يطبق Fable 5 الاستدلال الممتد على الاستعلامات المعقدة مع العودة إلى التوليد القياسي للاستعلامات الأبسط — مما يجعله أكثر تلقائية وأقل اعتمادًا على اختيار المطورين صراحةً لـ "وضع الاستدلال". يؤكد طرح Anthropic أن Fable 5 يضاهي أو يتفوق على o3 في مهام البرمجة بينما هو أفضل بشكل ملحوظ في اتباع التعليمات الدقيقة والتحليل طويل الأمد، مع تبادل النموذجين للمراكز اعتمادًا على المعيار ومنهجية التقييم.

Gemini 3.5 Flash يمثل رهان Google على الكفاءة: نموذج استدلال سريع ورخيص بما يكفي لاستخدامه في مسارات الإنتاج الحساسة لزمن الاستجابة. ليس هو الأعلى أداءً على معايير الاستدلال البحتة، لكنه منافس في المهام العملية التي تحتاجها معظم التطبيقات فعليًا — مراجعة الكود، تحليل المستندات، استخراج البيانات المهيكلة من المدخلات المعقدة. وضعته Google كخيار افتراضي لخطوط الإنتاج حيث تكون التكلفة وزمن الاستجابة مهمين ولا تهم الجودة المطلقة القصوى.

ما الذي يتغير للمطورين؟

دليل كتابة المطالبات (Prompt engineering playbook) الذي بناه معظم المطورين في 2023-2024 بحاجة للتحديث. العديد من التقنيات التي كانت حاسمة للنماذج الأساسية أصبحت أقل أهمية لنماذج الاستدلال، وظهرت ممارسات جديدة.

أمثلة قليلة (Few-shot) أصبحت أقل ضرورة. تحفيز سلسلة الأفكار (Chain-of-thought prompting) — حيث تقدم بعض الأمثلة المشروحة لتُظهر للنموذج كيفية الاستدلال خطوة بخطوة — كان من أكثر التقنيات موثوقية لتحسين دقة النموذج الأساسي في المهام المنظمة. نماذج الاستدلال استوعبت هذه القدرة إلى حد كبير. لا تزال تستفيد من تحديد المهمة بوضوح وأمثلة على تنسيق المخرجات المطلوب، لكنك لم تعد بحاجة لتوجيه النموذج خلال عملية الاستدلال صراحة.

صياغة المشكلة أصبحت أكثر أهمية، لا أقل. نماذج الاستدلال لا تصلح المشكلات غير المحددة — بل تستدل عليها لفترة أطول وتنتج إجابات خاطئة بثقة أكبر. أفضل ممارسة فردية لكتابة المطالبات لنماذج الاستدلال هي تحديد شكل "الصحيح" بدقة: ما القيود التي يجب أن تنطبق، وما تنسيق المخرجات، والافتراضات التي يجب اتخاذها عند نقص المعلومات. المطالبات الغامضة تنتج هلوسات باهظة الثمن.

زمن الاستجابة قيد حقيقي. التفكير الممتد يستغرق وقتًا. يمكن أن يستغرق o3 من 10 إلى 30 ثانية للرد على الاستعلامات المعقدة، وأحيانًا أطول. هذا مقبول للوظائف الدفعية (Batch jobs)، المعالجة غير المتزامنة، أو سير العمل الذي يتضمن تدخلًا بشريًا. لكنه عائق لأي شيء له واجهة مستخدم تفاعلية في الوقت الفعلي. النتيجة المعمارية: نماذج الاستدلال تنتمي إلى طبقة التخطيط في نظام وكيل (Agentic system)، وليس إلى طبقة التوليد التي تنتج استجابات متدفقة رمزًا برمز للمستخدمين.

المفاضلة بين التكلفة والجودة ومتى تستخدم نماذج الاستدلال

نماذج الاستدلال تكلف من 5 إلى 15 ضعف تكلفة النموذج الأساسي لنفس عدد الرموز، وتستخدم رموزًا أكثر (المسودة تضيف إلى المخرجات). الجدوى الاقتصادية تتحقق فقط إذا كان تحسين الجودة يغير النتائج بشكل ملموس لحالة الاستخدام. إطار قرار تقريبي:

استخدم نموذج استدلال عندما: تتضمن المهمة منطقًا متعدد الخطوات يفشل غالبًا مع النماذج الأساسية؛ الأخطاء مكلفة (كود يُنشر للإنتاج، تحليل يقود قرارات)؛ يمكنك تحمل زمن استجابة من 5 إلى 30 ثانية؛ تحل عددًا صغيرًا من المشكلات الصعبة لكل وحدة زمنية بدلاً من العديد من المشكلات السهلة.

استمر مع نموذج أساسي عندما: المهمة تتعلق أساسًا بالتوليد السلس، المخرجات الإبداعية، الاسترجاع، التلخيص، أو التصنيف؛ زمن الاستجابة يقاس بالثواني لا بعشرات الثواني؛ تعالج كميات كبيرة؛ الأخطاء قابلة للاسترداد بمراجعة بشرية.

النمط الإنتاجي الأكثر فعالية في 2026 هو هجين: نموذج استدلال يتولى التخطيط، تحليل المهام، وفحوص الجودة؛ نموذج أساسي أسرع وأرخص يتولى التنفيذ، التوليد، والعمليات عالية الحجم. هذا يعكس كيفية عمل الفرق الماهرة — حكم خبير يُطبق في نقاط القرار، وتنفيذ سريع في المهام المحددة جيدًا.

ما الذي يجب متابعته بعد ذلك؟

موجة نماذج الاستدلال لم تنتهِ بعد. يبدو أن توسيع نطاق الحوسبة أثناء وقت الاختبار (المزيد من وقت التفكير → إجابات أفضل) يحقق عوائد لا تتسطح بالسرعة التي حدث بها توسيع نطاق وقت التدريب. النتيجة أن الفجوة بين نماذج الاستدلال وغير الاستدلال ستتسع على الأرجح قبل أن تضيق، خاصة في المشكلات التي تتطلب منطقًا متعدد الخطوات صحيحًا ومستدامًا.

بالنسبة للمطورين الذين يبنون تطبيقات الذكاء الاصطناعي اليوم، الرؤية القابلة للتنفيذ هي تدقيق خطوط الإنتاج لديكم بحثًا عن المهام التي ترون فيها أكبر حالات الفشل. إذا كانت حالات الفشل تتضمن استدلالًا متعدد الخطوات — ليس هلوسة في الحقائق، بل أخطاء في المنطق أو تنفيذ المهمة — فإن نموذج الاستدلال سينتج نتائج أفضل بالتأكيد. التكلفة حقيقية، لكن فارق الجودة حقيقي أيضًا. البناء على النماذج الأساسية لكل شيء في 2026 يشبه كتابة كود وحيد الخيط (Single-threaded) بينما توجد معالجات متعددة النوى (Multicore): مقبول تقنيًا، لكنه محدود عمليًا.