Neulich stellte mir ein befreundeter Ingenieur eine Frage, die mich nicht mehr losließ. Er fragte ernst, ob die KI inzwischen alles könne, was er könne. Ein erfahrener Fachmann, der seit Jahrzehnten Tragwerke plant, ist auf einmal verunsichert und befürchtet, dass seine Arbeit bald überflüssig wird.
Dass KI überzeugend flüssig sprechen und mühelos komplexe Fragen beantworten kann, erleben wir täglich. In letzter Zeit hört man immer mehr über die KI, die scheinbar eigenständig handelt: Bestellungen auslöst, Vorgänge bearbeitet, Systeme bedient. Das nennt sich Agentic AI. Das verstärkt die Befürchtungen, bald überflüssig zu werden. Genau deshalb lohnt sich der nüchterne Blick. Was können diese Agenten in Wirklichkeit, wo helfen sie, und wo richten sie mehr Schaden an als Nutzen?
Dieser Leitfaden ordnet das Thema ein, ohne Hype und ohne Schwarzmalerei. Er richtet sich an alle, die Entscheidungen über KI treffen oder begleiten, unabhängig von der Branche. Wer aus der Energiewirtschaft kommt und zuerst die Grundlagen sucht, findet sie im Einstiegs-Ratgeber KI in der Energiewirtschaft.
Was ist Agentic AI, und was unterscheidet sie von ChatGPT?
Generative KI wie ChatGPT erzeugt etwas, einen Text, ein Bild, eine Zusammenfassung. Sie antwortet und hört dann auf. Agentic AI geht einen Schritt weiter. Ein Agent verfolgt ein Ziel, trifft unterwegs Entscheidungen und handelt. Er liest nicht nur eine E-Mail, er beantwortet sie, legt einen Vorgang in einem ERP-System an und stößt die nächste Aktion an.
Der Unterschied ist enorm. Eine generative KI, die einen irreführenden Satz schreibt, erzeugt eben das. Der Mensch liest und entscheidet, wie er damit verfährt. Ein Agent, der eine Entscheidung trifft, handelt entsprechend. Und ohne zu zögern. Die E-Mail bleibt nicht lange liegen, wird sofort beantwortet, eine Rechnung wird genehmigt. Der Fallstrick? Aus einem Fehler im Text wird direkt ein Schaden in der Wirklichkeit. Genau das macht autonome KI so reizvoll und zugleich so heikel.
Warum erscheint diese Technologie so mächtig?
Die Frage des Freunds hat einen nachvollziehbaren Grund. KI wirkt zunächst wie Magie. Ein Sprachmodell zeigt ein Verhalten, das wir bisher nur von denkenden Menschen kannten, nämlich flüssige, sinnvolle Sprache. Unser Gehirn schließt daraus automatisch, dass dahinter Verstand stecken muss, weil das ein Leben lang so war. Bei der KI stimmt dieser Schluss zum ersten Mal nicht. Sie erzeugt die Sprache ohne das Verstehen.
Aus dieser Lücke entstehen die überzogenen Erwartungen und aus diesen Erwartungen Projekte, die scheitern müssen. Wo dieser Eindruck herkommt und wie man den Zauber durch Verstehen auflösen kann, beschreibe ich in KI ohne Hype: Wie ChatGPT funktioniert, einfach erklärt.
Würfel oder Uhrwerk, warum KI nicht immer dasselbe tut
Ein klassisches IT-System ist wie ein Uhrwerk. Gleicher Anstoß, gleiches Ergebnis, jedes Mal. Das nennt man deterministisch, und auf dieser Verlässlichkeit beruht der größte Teil unserer Geschäftsprozesse und der Software, die wir nutzen. Eine KI auf Basis großer Sprachmodelle arbeitet anders. Sie „würfelt“. Bei gleicher Frage kann sie verschiedene Antworten geben, weil sie nicht berechnet, was richtig ist, sondern schätzt, was wahrscheinlich passt.
Das ist kein Defekt, es ist die Natur dieser Technologie, und für viele Anwendungen ist es sogar ein Vorteil. Aber es bedeutet, dass man KI nicht überall einsetzen kann. Speziell nicht dort, wo man bisher auf das Uhrwerk vertraut hat. Wo eine Aufgabe eine einzige richtige Antwort hat, ist der Würfel das falsche Werkzeug.
Aber Menschen machen doch auch Fehler?
Das ist der häufigste Einwand, wenn jemand auf die Fehleranfälligkeit von KI hinweist. Er klingt fair und hat einen wahren Kern. Trotzdem verfehlt er das Entscheidende, weil er nur über die Häufigkeit von Fehlern spricht und nicht über ihre Struktur.Zehn Sachbearbeiter machen zehn verschiedene, voneinander unabhängige Flüchtigkeitsfehler. Am Ende des Arbeitstages hat man zehn fehlerhafte Vorgänge. Eine KI ist nicht deterministisch. Sie kann denselben systematischen Fehler in allen Vorgängen gleichzeitig machen, oder bei jeder zweiten Ausführung an einer anderen Stelle halluzinieren. Ein stabiles, vorhersagbares Fehlerbild, an dem man sich abarbeiten könnte, gibt es nicht. Dieselbe durchschnittliche Fehlerrate wird durch die Skalierung von einem tolerierbaren Einzelfehler zu einem systemischen Schaden. Zudem merkt ein Mensch meist, wenn er an seine Grenzen kommt, und nachfragt oder eskaliert. Genau dieses Gespür fehlt der KI.
Warum fällt es uns so schwer, die Fehlerrate einzuordnen?
Eine Genauigkeit von 95 Prozent klingt eindrucksvoll. In absolute Zahlen übersetzt, bedeutet sie bei tausend Vorgängen am Tag fünfzig Fehler, jeden Tag. Dieselbe Aussage, zwei völlig verschiedene Wahrnehmungen. Statt beruhigt zu sein, sieht man sich auf einmal fünfzig verärgerten Kunden gegenüber.
Dass wir mit solchen Zahlen Mühe haben, ist gut erforscht, und es trifft auch hochgebildete Fachleute in ihrem eigenen Gebiet. Wer KI-Angebote bewerten will, sollte diesen blinden Fleck kennen, beim Gegenüber und bei sich selbst.
Können KI-Agenten fehlende Funktionen ausgleichen?
Eine verlockende Idee lautet, ein KI-Agent könne unfertige geführte Prozesse oder fehlende Schnittstellen überbrücken, indem er die Oberfläche bedient, so wie ein Mensch es täte. Kein aufwendiger Schnittstellenbau, die KI versteht, was zu tun ist, und klickt sich durch. Unabhängige Forschung zeigt ein differenziertes Bild. Einzelne Bedienschritte gelingen passabel, aber mehrstufige Abläufe über eine Reihe von Systemen hinweg sind genau der wunde Punkt, an dem die Hersteller ansetzen und arbeiten.
Die Erfolgsquoten steigen schnell. Aber wenn ein Agent die Aufgabe unter Laborbedingungen schafft, heißt es noch lange nicht, dass man sich ohne Absicherung in der Produktionsumgebung darauf verlassen kann. Für einen geschäftskritischen Prozess ist beinahe richtig schlicht falsch.
Wird sich das alles nicht von selbst auswachsen?
Der stärkste Einwand gegen jede kritische Einordnung lautet, die Technologie werde ja immer besser. Das ist zugleich wahr und falsch. Die Modelle werden fähiger, aber die Zuverlässigkeitslücke liegt nicht am Reifegrad. Sie hängt strukturell an denselben Charakteristika, die die Stärke ausmachen, und Teile davon sind sogar grundsätzlich nicht auflösbar.
Das ist eine wichtige Erkenntnis für jede Investitionsentscheidung. Die Wette darauf, dass die nächste Modellgeneration die heutigen Grenzen einfach wegräumt, ist riskant.
Wie erkenne ich, ob ein Anbieter mehr verspricht, als er hält?
Vieles wird heute als agentisch verkauft, was im Kern keine Agentik braucht und keine ist. Dieses Phänomen hat einen Namen bekommen, Agent Washing. Die gute Nachricht ist, dass man es in einem Anbietergespräch in wenigen Minuten erkennen kann, wenn man die richtigen Fragen stellt.
Auf die Frage, ob der Agent eine Aufgabe kann, antworten die meisten Anbieter mit einem souveränen "Ja". Und oft stimmt das sogar.
Die bessere Frage ist, was passiert, wenn er sie falsch ausführt und wie er erkennt, dass er Hilfe braucht. Ein seriöser Systemanbieter spricht von selbst über Grenzen, rechnet in nachvollziehbaren absoluten Zahlen und benennt die Use Cases, in denen sein Werkzeug das falsche ist.
Wie entscheide ich, ob ein Prozess für KI geeignet ist?
Am Ende läuft alles auf eine einzige Vorfrage hinaus, die vor jedem Anbietergespräch stehen sollte. Nicht, was die KI kann, sondern was der eigene Prozess braucht. Drei Kriterien helfen bei der Einordnung.
Verträgt die Aufgabe überhaupt eine gewisse Varianz, oder verlangt sie eine eindeutig richtige Antwort? Wie groß ist der Schaden, wenn ein Fehler passiert? Und gibt es einen Menschen, der das Ergebnis prüft, bevor es wirksam wird? Wo ein Ablauf keine vollständige Genauigkeit erfordert, der Folgeschaden klein bleibt und eine Prüfung stattfindet, ist KI ein nützliches Werkzeug. Anderenfalls ist das deterministische Uhrwerk die bessere Wahl.
Ein Selbstversuch, der gerade läuft
Über autonome KI zu schreiben ist das eine. Sie selbst zu bauen, zu betreiben und am eigenen Material zu erleben, wo sie trägt und wo nicht, ist das andere. Genau das mache ich gerade. Ich baue mir einen kleinen Recherche-Agenten, der regelmäßig das Web nach neuen Veröffentlichungen zu meinen Themen absucht und mir einen kurzen Digest liefert.
Schon beim Entwurf zeigt sich die Lehre dieser ganzen Serie. Das, was zuverlässig und sicher funktioniert, ist bewusst kein frei handelnder Agent, sondern ein eng geführter Ablauf mit klarem Anfang und Ende. Er sucht und schlägt vor, entscheiden tue ich. Was ich dabei lerne, schreibe ich auf, sobald der Agent eine Weile gelaufen ist. Der Bericht erscheint dann als eigener Beitrag dieser Serie.
Wo fangen Sie an?
Die Frage des Ingenieurs vom Anfang lässt sich jetzt beantworten. Nein, die KI kann nicht alles, was er kann. Sie kann manches schneller, manches gar nicht, und das Entscheidende, nämlich verantworten, ob ein Tragwerk hält, kann sie überhaupt nicht. Was sie kann, ist ein Werkzeug zu sein, wenn man weiß, wofür.
Genau darin liegt der Kern. Das eigentliche Thema ist die Entscheidung. Welches Problem wollen wir lösen, und ist autonome KI dafür der richtige Weg? Wer diese Frage zuerst stellt, dreht die Machtverhältnisse um. Nicht der Anbieter definiert, was möglich ist, sondern das Problem definiert, was nötig ist.