Agentهای AI در Browser

AI Agentها اغلب طوری توصیف می‌شوند که گویی عمدتاً درون یک جعبه چت زندگی می‌کنند، اما این مدل ذهنی دارد گمراه‌کننده می‌شود. جایی که Agentها بیشترین کاربرد را نشان می‌دهند، به طور فزاینده‌ای مرورگر است، زیرا کار دانش‌محور مدرن در آنجا انجام می‌شود. ایمیل، سیستم‌های CRM، داشبوردها، اسناد، ابزارهای داخلی، صف‌های تیکت، کنسول‌های تجاری و اپلیکیشن‌های همکاری همگی پشت tabها قرار دارند. اگر یک Agent به context زنده و مسیری برای اقدام نیاز داشته باشد، مرورگر معمولاً جایی است که هر دو وجود دارند.

این چیزی فراتر از یک راحتی است. مرورگر به AI Agentها یک سطح کاری می‌دهد که context انسانی، state اپلیکیشن و interfaceهای قابل دسترس را ترکیب می‌کند. Tabها نشان می‌دهند که کاربر در حال حاضر چه کاری انجام می‌دهد. Web appها کنترل‌های ساختاریافته را نمایش می‌دهند. APIها و اتوماسیون‌ها گاهی می‌توانند پشت همان وظایف قرار گیرند. این ترکیب مرورگر را به یک محیط اجرایی طبیعی تبدیل می‌کند، نه فقط یک پنجره مشاهده. در عمل، مرورگر به فضای کاری پیش‌فرض برای Agentها تبدیل می‌شود زیرا جایی است که قصد، اطلاعات و اقدام در نهایت به اندازه کافی به هم نزدیک می‌شوند تا متصل شوند.

چرا مرورگر چنین تناسب قوی دارد

بیشتر سازمان‌ها حول SaaS استاندارد شده‌اند، و SaaS به معنای workflowهای مرورگر است. حتی زمانی که اپلیکیشن‌های native وجود دارند، تجربه مدیریتی یا همکاری استاندارد اغلب web-first است. این به Agentها مزیت بزرگی می‌دهد. به جای نیاز به hookهای عمیق سیستم‌عامل به مجموعه‌ای پراکنده از ابزارهای دسکتاپ، یک Agent می‌تواند در جایی که workflowها از قبل متمرکز شده‌اند، عمل کند.

مرورگر همچنین یک مدل منسجم از state ارائه می‌دهد. یک صفحه شامل محتوای قابل مشاهده، فرم‌های باز، فیلترهای جاری، رکوردهای انتخاب شده و context احراز هویت است. Agentای که بتواند این سیگنال‌ها را درک کند، بسیار به کار مفید نزدیک‌تر است تا Agentای که به promptهای انتزاعی بدون دسترسی به workflow اطراف پاسخ می‌دهد. به همین دلیل است که تجربیات Agent بومی مرورگر اغلب نسبت به چت مستقل، grounded و action-orientedتر احساس می‌شوند.

Tabها کانتینرهای context هستند

یک دلیل اینکه Agentهای مبتنی بر مرورگر توانمندتر می‌شوند این است که tabها آموزنده‌تر از آن چیزی هستند که به نظر می‌رسند. Tabهای باز یک کاربر اغلب نشان‌دهنده پروژه‌های فعال، وظایف حل‌نشده، مسیرهای تحقیق و تصمیم‌های در انتظار هستند. آن‌ها می‌توانند نشان دهند کدام حساب در حال ویرایش است، کدام گزارش در حال بررسی است، کدام رکورد مشتری اکنون مهم است، یا کدام سند نیاز به بازبینی دارد.

این context فوق‌العاده ارزشمند است زیرا میزان prompting که یک انسان باید انجام دهد را کاهش می‌دهد. به جای توصیف همه چیز از ابتدا، کاربر می‌تواند در کنار Agentای کار کند که از قبل صفحه جاری و هدف فوری آن را می‌بیند. این اصطکاک را کاهش می‌دهد و delegation را طبیعی‌تر می‌کند. مرورگر به یک فضای کاری مشترک تبدیل می‌شود، نه یک ظرف منفعل برای وب‌سایت‌ها.

Web appها به طور فزاینده‌ای agent-friendly هستند، حتی زمانی که آن‌طور طراحی نشده‌اند

بسیاری از web applicationها ابتدا برای کلیک‌های انسانی ساخته شده‌اند، نه برای اتوماسیون AI. با این حال آن‌ها همچنان یک محیط عملی برای Agentها فراهم می‌کنند زیرا interfaceهایشان ساختاریافته، تکراری و متصل به actions تجاری تعریف‌شده هستند. یک تیکت می‌تواند triage شود، یک lead به‌روزرسانی شود، یک فرم تکمیل شود، یک داشبورد query شود و یک پیش‌نویس ویرایش شود، همه درون patternهای مرورگر یکسان.

جایی که APIها وجود دارند، مرورگر حتی قدرتمندتر می‌شود. یک Agent ممکن است context را از صفحه قابل مشاهده جمع‌آوری کند، سپس از یک API یا integration برای اجرای مطمئن‌تر در پس‌زمینه استفاده کند. این مدل hybrid مهم است. Pure UI automation می‌تواند شکننده باشد، در حالی که pure API automation می‌تواند نسبت به workflow انسانی نابینا باشد. مرورگر در محل اتصال هر دو قرار دارد.

مرورگر یک مشکل اعتماد را هم حل می‌کند

افراد زمانی بیشتر به Agentها اعتماد می‌کنند که بتوانند ببینند کار کجا انجام می‌شود. مرورگر actions را خوانا می‌کند. کاربران می‌توانند تماشا کنند که یک Agent یک رکورد را بررسی می‌کند، یک فیلد را پر می‌کند، اسناد را مقایسه می‌کند یا یک پاسخ را آماده می‌کند. این visibility برای نظارت مهم است، به ویژه در استقرارهای اولیه که انسان‌ها هنوز می‌خواهند قصد را قبل از اجرا تأیید کنند.

این یکی از دلایلی است که محصولات Agent مبتنی بر مرورگر اغلب سریع‌تر از اتوماسیون‌های نامرئی back-end مورد استقبال قرار می‌گیرند. آن‌ها حس کار مشترک ایجاد می‌کنند. کاربر یک درخواست را به یک جعبه سیاه نمی‌فرستد. او یک دستیار را تماشا می‌کند که در همان محیطی که خودش استفاده می‌کند، با همان اپلیکیشن‌ها و همان اشیاء روی صفحه، عمل می‌کند.

محدودیت‌ها همچنان مهم هستند

نامیدن مرورگر به عنوان فضای کاری پیش‌فرض به این معنی نیست که برای هر وظیفه Agent فضای کاری کاملی است. مرزهای احراز هویت، interfaceهای ناسازگار، CAPTCHAها، محدودیت نرخ، stateهای پنهان و تغییرات شکننده front-end هنوز می‌توانند workflowها را مختل کنند. برخی کارها از طریق دسترسی مستقیم API یا orchestration back-end بسیار بهتر انجام می‌شوند. برخی دیگر نیاز به فایل‌های محلی، دسترسی به ترمینال یا context موبایل دارند که مرورگر نمی‌تواند به طور کامل فراهم کند.

نکته مهم این است که مرورگر نیازی ندارد همه چیز را مدیریت کند تا به مرکز ثقل تبدیل شود. فقط باید مکانی باقی بماند که سهم بزرگی از فعالیت تجاری در آن قابل مشاهده و کنترل باشد. برای بسیاری از workflowهای دانش‌محور، این آستانه قبلاً عبور کرده است.

این برای تیم‌های محصول چه معنایی دارد

تیم‌های نرم‌افزاری که برای AI Agentها می‌سازند باید با دقت به قابلیت کار در مرورگر فکر کنند. این شامل معماری اطلاعات تمیز، برچسب‌های UI یکسان، رفتار کلید و state قابل اعتماد، صفحات ساختاریافته خوب و APIها برای actions با ارزش بالا است. بهترین محصولات از یک مدل لایه‌ای پشتیبانی خواهند کرد: interface قابل فهم برای انسان، ساختار قابل پردازش ماشین برای Agentها و APIها برای اجرای robust.

تیم‌ها همچنین باید معنای 'فضای کاری' را دوباره تعریف کنند. اگر کاربران به طور فزاینده‌ای Agentها را از طریق مرورگر به سیستم‌های CRM، اسناد، ابزارهای پشتیبانی و کنسول‌های تحلیلی می‌آورند، پس هر web app دیگر فقط یک مقصد نیست. این بخشی از یک سطح عملیاتی multi-tab بزرگتر است که در آن Agentها می‌توانند کار را در سراسر سیستم‌ها هماهنگ کنند.

توصیه عملی برای سازمان‌هایی که Agentها را به کار می‌گیرند

شرکت‌هایی که سعی در کسب ارزش از Agentها دارند باید از جایی شروع کنند که workflowهای مرورگر تکراری، پرحجم و آسان برای نظارت باشند. back office پشتیبانی مشتری، عملیات فروش، تحقیقات داخلی، هماهنگی استخدام و پیگیری‌های مالی مثال‌های خوبی هستند. اینها حوزه‌هایی هستند که مرورگر از قبل context را متمرکز کرده و جایی که یک انسان می‌تواند به سرعت خروجی Agent را بررسی کند.

همچنین عاقلانه است که مشخص شود کدام وظایف باید در سطح UI بمانند و کدام باید به اجرای API-backed منتقل شوند. قوی‌ترین استقرارها معمولاً از مرورگر برای context و اعتماد کاربر استفاده می‌کنند، در حالی که برای actions که باید در مقیاس قابل اعتماد باشند به integrations تکیه می‌کنند.

لایه interface بعدی

مرورگر به فضای کاری پیش‌فرض برای AI Agentها تبدیل می‌شود زیرا به آرامی به فضای کاری پیش‌فرض برای افراد تبدیل شده است. این شامل tabها، سطوح SaaS و مسیرهای اقدام است که کار مدرن به آن وابسته است. Agentهایی که می‌توانند در آنجا عمل کنند نیازی به یک پارادایم محاسباتی کاملاً جدید ندارند. آن‌ها باید به همان پارادایمی متصل شوند که سازمان‌ها در تمام روز از آن استفاده می‌کنند.

این مرورگر را دائمی یا انحصاری نمی‌کند. اما در حال حاضر، این کاربردی‌ترین عرصه است که در آن AI Agentها می‌توانند با context مفید مشاهده، استدلال و عمل کنند. برای فاز بعدی نرم‌افزار agent، این باعث می‌شود مرورگر کمتر یک پنجره برای کار و بیشتر خود میز کار باشد.

مرورگر در حال تبدیل شدن به فضای کاری پیش‌فرض برای AI Agentها است