KI-Agenten sind jetzt in Produktion – was der Betrieb in Enterprise-Skala wirklich erfordert

Das Problem mit KI-Agenten war schon immer die Kluft zwischen beeindruckenden Konferenz-Demos und dem, was in einer Fortune-500-Umgebung zuverlässig läuft. Diese Kluft schrumpft – aber geschlossen ist sie noch nicht, und die Unternehmen, die das in Echtzeit lernen, sammeln teure Erfahrungen.

Salesforce meldete 29.000 abgeschlossene Agentforce-Deals seit dem Start der Plattform, der jährlich wiederkehrende Umsatz überstieg 800 Millionen US-Dollar. Microsofts Copilot Studio wird nun von 160.000 Organisationen genutzt, die mehr als 400.000 benutzerdefinierte Agenten in ihren Unternehmen einsetzen. Das sind keine Pilotprojekte mehr – es sind Produktionsbereitstellungen, die Kundeninteraktionen, interne Arbeitsabläufe und Finanzprozesse in großem Maßstab abwickeln.

Was Produktions-KI-Agenten tatsächlich tun

Die häufigsten Enterprise-Agenten-Bereitstellungen im Jahr 2026 entsprechen nicht der Science-Fiction-Version eines autonomen KI, der sechs Monate im Voraus plant. Sie sind enger gefasst: Kundensupport-Triage-Agenten, die Tickets kategorisieren und weiterleiten, bevor ein Mensch sie prüft, Rechnungsverarbeitungs-Agenten, die Zeilen aus PDFs extrahieren und mit Bestellungen abgleichen, IT-Überwachungs-Agenten, die Warnmeldungen aus mehreren Systemen korrelieren und Vorfallberichte erstellen, sowie HR-Agenten, die Anfragen zu Leistungen und Onboarding-Checklisten bearbeiten.

Was diese gemeinsam haben, ist ein klar definierter Workflow mit einem eindeutigen Übergabepunkt an einen Menschen. Laut Gartner werden bis 2026 40 % der Enterprise-Anwendungen aufgabenspezifische KI-Agenten enthalten, gegenüber unter 5 % im Jahr 2025. Das ist eine schnelle Einführung, aber das Schlüsselwort ist „aufgabenspezifisch“ – erfolgreiche Organisationen setzen nicht einen Allzweck-Agenten ein, der das gesamte Unternehmen steuert. Sie setzen Dutzende spezialisierte Agenten ein, die jeweils auf einen bestimmten Prozess mit definierten Eingaben und Ausgaben zugeschnitten sind.

Die Reduzierung des manuellen Aufwands bei ausgereiften Bereitstellungen ist real: Organisationen berichten von 30 % bis 80 % Effizienzsteigerungen bei bestimmten Prozessen, aber diese Zahlen stammen aus Prozessen, bei denen der Workflow bereits gut dokumentiert war und die Fehlerquellen vor der Einführung des Agenten bekannt waren.

Das Governance-Problem, über das niemand sprach

Ein Agent, der E-Mails versenden, CRM-Datensätze aktualisieren, Zahlungen auslösen und APIs aufrufen kann, ist nicht nur Software – er ist eine Entität, die in Ihrem Namen in Ihren Systemen handelt. Diese Unterscheidung ist für die Sicherheit enorm wichtig, und die meisten Organisationen behandeln sie noch nicht so.

Eine Anfang 2026 veröffentlichte Studie ergab, dass 88 % der Organisationen, die KI-Agenten einsetzen, KI-bezogene Sicherheitsvorfälle erlebt haben. Noch aufschlussreicher: Nur 22 % dieser Organisationen behandeln Agenten als identitätstragende Entitäten mit formalen Zugriffskontrollen – das heißt, der Agent hat ein eigenes Dienstkonto, abgestufte Berechtigungen, Prüfprotokolle und eine Widerrufsrichtlinie. Der Rest betreibt Agenten unter gemeinsamen Anmeldedaten oder menschlichen Benutzerkonten, was Prüfpfade nutzlos macht und eine Eindämmung unmöglich, wenn etwas schiefgeht.

Die Angriffsfläche ist real. Ein Agent mit Zugriff auf Ihre E-Mails, Ihr CRM und Ihren Slack kann durch Prompt Injection manipuliert werden – bösartige Anweisungen, die in externen Inhalten versteckt sind, die der Agent im Rahmen seiner Aufgabe liest. Ein Kundensupport-Agent, der Kunden-E-Mails liest, liest definitionsgemäß feindliche Inhalte. Ohne Eingabebereinigung und Ausgabevalidierung an jeder Tool-Grenze ist der Weg von „Kunde sendet eine seltsame E-Mail“ zu „Agent führt eine unbefugte Aktion aus“ kurz.

Observability ist keine Option

Wenn ein traditionelles Softwaresystem ausfällt, haben Sie Protokolle, Stack-Traces und deterministische Ausführungspfade. Wenn ein KI-Agent ausfällt, haben Sie eine probabilistische Argumentationskette, bei der der genaue Weg von der Eingabe zur falschen Ausgabe im Nachhinein schwer zu rekonstruieren ist. Dies macht Infrastruktur zur Beobachtbarkeit zur Pflicht für Produktionsagenten.

Produktionsreife Agentensysteme müssen erfassen: den vollständigen Prompt, der dem Modell bei jedem Schritt gesendet wurde, die durchgeführten Tool-Aufrufe und deren Ergebnisse, die Argumentationskette des Modells (sofern verfügbar), die Latenz bei jedem Schritt, die endgültige Ausgabe sowie alle Entscheidungen zur menschlichen Überprüfung. Plattformen wie LangSmith, Langfuse und Arize AI Phoenix wurden speziell für diesen Anwendungsfall entwickelt, und ihre Adoption ist ein guter Indikator dafür, ob die Agentenbereitstellung einer Organisation tatsächlich produktionsreif oder noch im erweiterten Pilotmodus ist.

Kostenbeobachtbarkeit ist ebenso wichtig. Ein Agent, der bei einer mehrdeutigen Aufgabe in einer Schleife hängt, kann beträchtliche API-Kosten verursachen, bevor er ausläuft. Produktionsbereitstellungen benötigen Token-Budgets, Schrittbegrenzungen und Schutzschalter – genauso wie Produktions-APIs Ratenbegrenzungen und Timeouts benötigen.

Die Frage nach dem Orchestrierungs-Framework

Die Orchestrierungsschicht des Agenten – der Code, der entscheidet, welche Tools aufgerufen werden, den Zustand zwischen Schritten verwaltet und Fehler behandelt – ist der Punkt, an dem Vendor-Lock-in zu einer echten strategischen Sorge wird. LangGraph, CrewAI, AutoGen und n8n bieten unterschiedliche Kompromisse zwischen Kontrolle und Abstraktion. Frameworks auf niedrigerer Ebene geben Ihnen mehr Kontrolle über das Verhalten des Agenten und erleichtern das Debugging. Frameworks auf höherer Ebene liefern schneller Ergebnisse, verbergen jedoch die Argumentationskette, was die Fehlersuche erschwert.

Das Risiko bei all diesen Frameworks besteht darin, dass Ihre Agentenlogik eng an die Abstraktionen des Frameworks gekoppelt wird, was einen Modellwechsel oder die Migration zu einer anderen Orchestrierungsschicht erschwert, wenn sich das Ökosystem weiterentwickelt. Organisationen, die dies durchgearbeitet haben, empfehlen in der Regel, die Agentenlogik so weit wie möglich in Framework-unabhängigem Python zu halten und das Orchestrierungs-Framework nur für die Verbindungstechnik zu verwenden.

Was echte Produktion von erweiterten Piloten unterscheidet

Drei Dinge unterscheiden reife Agentenbereitstellungen konsequent von erweiterten Piloten, die nie wirklich ausgeliefert werden:

Human-in-the-Loop ist von Anfang an integriert, nicht nachträglich hinzugefügt. Agenten, die zu 100 % Autonomie benötigen, um Wert zu schaffen, sind zerbrechlich. Die langlebigsten Bereitstellungen haben explizite Kontrollpunkte, an denen ein Mensch die vorgeschlagene Aktion des Agenten vor der Ausführung überprüft – insbesondere bei allem, was Geld, Kundendaten oder externe Kommunikation betrifft. Ziel ist es, den Prüfaufwand im Laufe der Zeit zu reduzieren, wenn die Zuverlässigkeit des Agenten steigt, nicht von Anfang an zu eliminieren.

Fehlermodi werden vor der Auslieferung des Agenten dokumentiert. Jeder Produktionsagent sollte ein Dokument zu Fehlermodi haben: Was passiert, wenn das LLM Müll zurückgibt, wenn ein Tool-Aufruf ausläuft, wenn die Eingabe außerhalb der Verteilung liegt. Wenn Sie die Antwort nicht kennen, bevor der Agent live geht, lernen Sie es auf die harte Tour – um 2 Uhr morgens.

Der Agent tut weniger, als Sie denken sollten. Die Agenten, die am längsten in der Produktion bleiben, sind die mit dem engsten Umfang. Widerstehen Sie der Versuchung, die Fähigkeiten des Agenten schrittweise zu erweitern, ohne die Governance- und Beobachtbarkeitsinfrastruktur zu überprüfen. Jedes neue Tool, das der Agent aufrufen kann, ist eine neue Angriffsfläche und ein neuer Fehlermodus.

Enterprise-KI-Agenten verändern wirklich Arbeitsabläufe in Organisationen, die dies durchdacht gemacht haben. Die Organisationen, die zu kämpfen haben, sind diejenigen, die „KI-Agent bereitstellen“ als Software-Release betrachtet haben, nicht als fortlaufendes operatives Engagement. Die Infrastruktur für zuverlässige Agentenbereitstellung – Identitätsmanagement, Beobachtbarkeit, Kostenkontrollen, Fehlerdokumentation – ist unglamourös, aber sie unterscheidet eine Plattform, die 800 Mio. USD ARR erreicht, von der 88-%-Vorfallstatistik.