Wie hoch ist die Fehlerquote von KI im Vergleich zum Menschen?

Wenn ein KI-Anbieter mit 95 Prozent Genauigkeit wirbt, entspricht das einer Fehlerquote von fünf Prozent. Menschen liegen bei einfacher Dateneingabe bei etwa einem Prozent, bei komplexeren Aufgaben ohne Vier-Augen-Prinzip bei bis zu vier Prozent. KI ist im Schnitt also etwa so genau wie ein Mensch, nicht spürbar überlegen.

Was ist der Unterschied zwischen menschlichen und KI-Fehlern?

Menschliche Fehler sind unabhängig voneinander und haben nachvollziehbare Ursachen. Jeder Fehler lässt sich erklären und beim nächsten Mal vermeiden. KI-Fehler erzählen oft keine Geschichte. Das System schätzt und liegt manchmal daneben, ohne dass man hinterher rekonstruieren könnte, warum.

Warum sind KI-Systeme nicht deterministisch?

Große Sprachmodelle arbeiten mit einem statistischen Verfahren, das bei gleicher Eingabe verschiedene Ausgaben erzeugen kann. Dazu kommt das Phänomen der Halluzination, also das Erfinden plausibler, aber falscher Inhalte. Beide Eigenschaften liegen in der Bauart des Systems begründet.

Warum kann eine KI ihre eigene Entscheidung nicht erklären?

Ein Sprachmodell kann auf Nachfrage eine plausibel klingende Begründung liefern, aber diese ist selbst nur erzeugter Text, keine echte Rekonstruktion der internen Berechnung. Es rationalisiert im Nachhinein. In regulierten Prozessen, wo Entscheidungen begründbar sein müssen, ist das ein erhebliches Problem.

Für welche Aufgaben ist KI geeignet?

KI eignet sich für Aufgaben, die Varianz vertragen, etwa Texte entwerfen, Vorschläge generieren, Recherchen vorbereiten oder Inhalte zusammenfassen. Bei Prozessen, die hundertprozentig regelbasiert sein müssen, etwa Lieferantenwechsel oder Versicherungswechsel, ist klassische Software das richtige Werkzeug.

KI ohne Hype: Menschen irren sich auch, warum dieser Satz in die Irre führt

Vor ein paar Tagen habe ich ein kleines Experiment gemacht. Ich habe ein Sprachmodell gefragt, wie viele R im Wort "strawberries" stecken. Eine Frage, die im Alltag niemand stellen würde, die richtige Antwort sieht man auf einen Blick. Die Maschine antwortete sehr schnell und selbstbewusst: "Zwei". Ich fragte nach. Wieder zwei. Erst beim dritten Versuch kam die korrekte Zahl, mit voller Überzeugung.

Fragen Sie einen Grundschüler dasselbe, und er wird Sie für verrückt halten, aber die richtige Antwort geben. Und falls er sich vertut, wird er kurz nachzählen. Mein Sohn hätte mich gefragt, warum ich so einen Blödsinn wissen wolle. Die Maschine tat nichts davon. Sie wusste nicht, dass sie es nicht wusste.

Genau hier liegt der Punkt, den der häufige Einwand "Menschen irren sich doch auch" verfehlt. Ich höre ihn in jedem zweiten Beratungsgespräch, sobald die Fehleranfälligkeit von KI zur Sprache kommt. Er klingt fair und hat einen wahren Kern. Wir machen Fehler, jeden Tag, in jedem Prozess. Trotzdem vergleicht das Argument Äpfel mit Birnen.

Fehlerqualität

Der Wirtschaftsprofessor Raymond Panko erforscht seit Jahrzehnten, wie oft Menschen bei Verarbeitung der Daten Fehler machen. Bei einfacher Dateneingabe liegt die Fehlerquote bei einem Prozent, bei komplexeren Aufgaben ohne Vier-Augen-Prinzip bei bis zu vier Prozent. Wenn ein KI-Anbieter mit "95 Prozent Genauigkeit" wirbt, ist die Maschine im Schnitt etwa so genau wie ein Mensch, nicht spürbar überlegen.

Der entscheidende Unterschied liegt nicht in der Quote, sondern in der Qualität der Fehler. Stellen Sie sich ein Team mit zehn Sachbearbeitern vor, das einen Tag lang Vorgänge bearbeitet. Wenn am Ende des Tages einige falsch sind, hat dies vielfältige Ursachen. Müdigkeit, Eile, Missverständnis, ein Buchstabendreher, ein vergessenes "Häkchen" in der Maske. Jeder Fehlgriff erzählt eine Geschichte, lässt sich nachvollziehen und beim nächsten Mal vermeiden. Die Fehler eines KI-Systems erzählen oft keine Geschichte. Das System schätzt und liegt manchmal daneben, ohne dass man hinterher rekonstruieren könnte, warum.

Der Würfel

Die eigentliche Ursache ist, dass große Sprachmodelle nicht deterministisch sind. Sie können bei derselben Eingabe verschiedene Antworten geben, ohne dass sich von außen erkennen ließe, welche stimmt. Dazu kommt ein zweites Phänomen, die berüchtigte Halluzination. Damit ist etwas anderes gemeint als die schwankende Reaktion: das Erfinden von Inhalten, die plausibel klingen, aber schlicht nicht zutreffen. Ein Sprachmodell kann eine Quelle zitieren, die es nie gegeben hat, oder eine Zahl vorlegen, die niemand jemals erhoben hat. Beide Phänomene wirken zusammen und sind keine Einzelfälle.

Bei tausend Vorgängen kann das System bei dreihundert die korrekte Antwort liefern, bei zweihundert weiteren eine plausibel klingende, aber fehlerhafte, und sich beim Rest komplett anders verhalten. Es ist nicht stabil falsch, es ist unzuverlässig richtig. Derselbe Fall kann heute einwandfrei und morgen verkehrt laufen.

Vergleich Mensch und Roboter bei der Freigabe: die Mitarbeiterin prüft und gibt frei, der Roboter würfelt und erzeugt drei verschiedene Ergebnisse.

Klassische Software wird getestet, indem bekannte Eingaben eingespielt und das Ergebnis mit dem erwarteten verglichen wird. Gleicher Input erzeugt gleichen Output. Jedes Mal. Bei KI funktioniert dieses seit Jahrzehnten erprobte Verfahren nicht. Die Resultate schwanken, und das liegt an der Bauart des Systems selbst. Den Würfel können Sie nicht testen.

Wir prüfen klassische Software, aber nicht die KI

Klassische Software kann ebenfalls massenhaft Fehler produzieren. Hat ein Softwareentwickler meine Anforderung falsch verstanden oder einen Logikfehler eingebaut, schlägt sein Programm bei jedem Vorgang fehl. Das ist Alltag. Genau deshalb verschlingt das Testen ein Viertel bis die Hälfte aller Entwicklungsressourcen. Niemand würde eine Software ohne Tests und fachliche Abnahmen in Betrieb nehmen.

Bei KI fällt diese Prüfkultur oft weg. Die Antwort klingt souverän und wird ohne Zögern akzeptiert. Die KI tritt wie ein Experte auf, und das verleitet zum blinden Vertrauen. Das eigentliche Problem sitzt vor dem Bildschirm. Wir behandeln die Ausgabe eines Sprachmodells wie eine geprüfte Quelle, dabei ist sie nur eine Schätzung.

Dieses blinde Vertrauen ist kein neues Phänomen. Schon 2016 untersuchten Forscher vom Georgia Institute of Technology, wie Menschen einem Roboter im Notfall begegnen. Im Versuch ertönte ein Feueralarm, künstlicher Rauch zog durch den Raum. Der Roboter zeigte den Versuchsteilnehmern einen Fluchtweg in eine ihnen unbekannte Richtung. Direkt hinter dem Roboter war ein leuchtendes Notausgangsschild zu sehen, das in die Gegenrichtung zum bekannten Haupteingang zeigte. Alle 26 Teilnehmer gingen trotzdem dem Roboter nach, auch diejenigen, die ihn kurz zuvor als unzuverlässig erlebt hatten. In einer Erweiterung der Studie führte der Roboter die Probanden sogar in einen dunklen, durch ein Möbelstück versperrten Raum. Einige quetschten sich an dem Hindernis vorbei und folgten ihm hinein.

Warum Menschen automatisierten Systemen so bereitwillig vertrauen, behandle ich in einem eigenen Artikel: Warum wir KI mehr vertrauen als uns selbst.

Bei einem Menschen können Sie nachfragen, warum

Wir erinnern uns an das Team, das die Vorgänge erledigt hat. Menschen können Fehler erklären und wir können darauf aufbauend Maßnahmen einleiten. Wird ein "Häkchen" regelmäßig vergessen, kann zum Beispiel ein geführter Prozess das Problem künftig eliminieren.

Bei einem Sprachmodell funktioniert das nicht. Sie können es zwar fragen, warum es etwas entschieden hat, und Sie werden eine flüssige, plausibel klingende Antwort bekommen. Aber diese Auskunft selbst ist nur erzeugter Text, keine echte Rekonstruktion der internen Berechnung. Sie kann zutreffen oder komplett erfunden sein, und Sie können es von außen nicht unterscheiden. Das Modell rationalisiert im Nachhinein, weil plausible Rechtfertigungen in seinen Trainingsdaten auf solche Fragen folgen. Es kann sein Innenleben nicht lesen und somit nichts erklären.

Für viele Aufgaben ist das egal. Niemand muss begründen, warum eine Mail in diese oder jene Bearbeitungsqueue einsortiert wurde.

In regulierten Prozessen sieht es anders aus. Wer einen Antrag ablehnt, eine Leistung verweigert, einen Kredit nicht gewährt, muss in der Lage sein, diese Entscheidung im Zweifel gegenüber dem Betroffenen und einer Aufsicht zu belegen. Der Datenschutz und der europäische Rechtsrahmen für KI verlangen es bei Hochrisiko-Anwendungen. Hier prallen zwei Welten aufeinander: Der Prozess verlangt einen Beleg, die KI liefert nur eine Geschichte.

Warum der Einwand trotzdem so plausibel klingt

Wenn die KI flüssig formuliert, sehen wir in ihr einen menschenähnlichen Kollegen. Und dann liegt der Satz "sie macht eben Fehler wie ein Mensch" nahe und klingt fast beruhigend. Genau das ist eine sprachliche Falle, die einen Namen hat, den ELIZA-Effekt, ausführlich beschrieben in einem eigenen Artikel. Kurz gesagt: Wir schreiben einem flüssig formulierenden Programm Verstehen und Urteilskraft zu, weil unser Gehirn diese Verknüpfung ein Leben lang gelernt hat.

Heute begegnet uns dieselbe Falle in weitaus größerem Maßstab. Wir hören eine Maschine flüssig antworten und sehen unbewusst einen denkenden Menschen vor uns. Damit übernehmen wir aber nur die Hälfte des Bildes. Wir finden die menschliche Fehlbarkeit in der KI wieder. Was wir dabei übersehen, sind die menschlichen Sicherungsmechanismen: das Zögern bei Unsicherheit, die Eskalation an einen Kollegen, die Verantwortung für das Ergebnis. Der ELIZA-Effekt lässt uns anstelle einer Maschine einen fehlbaren Menschen sehen und blendet aus, dass dieser keine unserer Schutzmechanismen mitbringt.

Wo der Würfel passt und wo das Uhrwerk gebraucht wird

An einer Stelle hat der Einwand "Menschen irren sich auch" recht, und es lohnt sich, das anzuerkennen. Wenn die Aufgabe gar keine deterministisch richtige Lösung hat, zum Beispiel bei urteilsbehafteten Tätigkeiten wie dem Zusammenfassen von Texten oder dem Entwerfen einer Antwort, ist die Forderung nach Perfektion die falsche Messlatte. Der ehrliche Vergleich ist dann der reale Mensch mit seiner Müdigkeit und Eile. Wenn eine KI hier schneller, zuverlässiger und gleichmäßiger arbeitet als ein übernächtigter Sachbearbeiter, ist sie ein sinnvolles Werkzeug.

Das alles ist kein Argument gegen KI. Es ist ein Appell für die richtige Werkzeugwahl. KI ist eine ausgezeichnete Arbeitshilfe, wenn die Aufgabe Varianz verträgt. Texte entwerfen, Vorschläge generieren, Recherchen vorbereiten, Inhalte zusammenfassen. Überall dort, wo das Ergebnis nicht jedes Mal identisch sein muss, spielt sie ihre Stärken aus.

Es gibt aber Prozesse, bei denen jedes Mal genau dasselbe herauskommen muss. Ein Lieferantenwechsel in der Energiewirtschaft. Ein Versicherungswechsel. Eine Telefonnummer, die zum neuen Anbieter mitgenommen wird. Diese Abläufe sind hundertprozentig regelbasiert und unterliegen klaren rechtlichen und technischen Vorgaben. Hier ist ein Sprachmodell das falsche Instrument. Hier braucht es ein Uhrwerk, das immer gleich tickt, kein System, das schätzt, was wahrscheinlich richtig ist.

KI kann hier an einer anderen Stelle eine Hilfe sein. Sie ist ein exzellentes Werkzeug, um den Code zu schreiben, der solche deterministischen Prozesse abbildet. Der Würfel hilft beim Bauen des Uhrwerks, ohne es im Betrieb zu ersetzen.

Wer diese Unterscheidung beherrscht, kann den Hype hinter sich lassen und das Werkzeug dort erfolgreich einsetzen, wo es seine Wirkung entfalten kann.

Quellen und weiterführende Links

Forschung zu Fehlerquoten

Raymond Panko: Forschung zu menschlichen Fehlern https://panko.com/HumanErr/index.html
Raymond Panko: Untersuchungen zu Fehlerquoten in der Softwareentwicklung https://panko.com/HumanErr/Software.html