Sie tippen Ihre Frage in das kleine Chatfenster auf einer Webseite. Vielleicht bei Ihrer Bank, vielleicht bei einem Versandhändler, vielleicht bei Ihrer Versicherung. Sie formulieren die Frage klar und höflich, weil Sie sich an ChatGPT gewöhnt haben. Kurz darauf kommt die Antwort. Sie hat mit Ihrer Frage nichts zu tun. Sie versuchen es noch einmal, einfacher, mit anderen Worten. Die nächste Antwort ist ein Textbaustein aus den FAQ. Sie geben auf und wählen die Servicenummer. Diese Erfahrung ist in Studien belegt. Eine aktuelle Umfrage des Digitalverbands Bitkom zeigt: 62 Prozent der Online-Shopper wollen bei Problemen mit einem Menschen sprechen, nur 36 Prozent wünschen sich einen Chatbot als Kundenservice. Und selbst unter den Kunden, die einen Chatbot nutzen, ist nur die Hälfte damit zufrieden.
Kunden erwarten seit ChatGPT einen Ansprechpartner, der ihre Frage versteht, den Kontext hält und im Zweifel nachfragt anstatt zu raten. Sie bekommen einen FAQ-Automaten in neuem Kleid. Die Enttäuschung ist vorprogrammiert.
Was strukturell schiefläuft
Chaotische Wissensbasis. Der Kunde fragt: "Wann darf ich meinen Vertrag kündigen?“ In der Bibliothek des Bots liegen drei Antworten. Eine aus der aktuellen AGB, eine aus einem alten FAQ von 2021, eine aus einem Rundschreiben zur Preisanpassung von 2023. Alle drei sind wahr. Nur zwei davon gelten für diesen speziellen Kunden. Der Bot weiß das nicht und wählt eine aus. Wenn es die Falsche ist, hat entweder der Kunde oder das Unternehmen Pech.
Sprachmodelle ohne Bremse. Ein Sprachmodell arbeitet grundsätzlich nicht deterministisch und kann je nach Einstellungen unterschiedliche Auskünfte zum gleichen Thema geben. Hinzu kommt, dass "lieber nicht antworten“ nicht eingebaut ist. So halluziniert die generative KI und sagt selbstbewusst das Falsche. Das Modell hat konstruktionsbedingt keinen zuverlässigen Mechanismus zur Selbstprüfung.
Vorsichts-Architektur. Aus Haftungsangst wird der Bot so eng konfiguriert, dass er bei der Hälfte aller Fragen sagt: "Wenden Sie sich an unseren Service.“ Das Werkzeug ist da, der Sinn ist weg. Der Kunde landet trotzdem in der Hotline. Er hat aber vorher Zeit verloren und ist genervt.
Voicebots und die Sprache
Voicebots haben alle Probleme der Chatbots. Plus etliche eigene.
Speech-to-Text ist fehleranfällig. Zwischengeräusche, schnelle Sprache, Unsicherheit im Ausdruck. Ein Tippfehler im Chat kann der Kunde merken und korrigieren. Ein Versprecher am Telefon nicht. Der Kunde am Telefon hat zudem keine visuelle Unterstützung. Er muss alles im Kopf behalten und sich extrem klar und fehlerfrei äußern. Ich bin selbst öfters daran gescheitert, eine Erinnerung oder einen Timer über Siri einzurichten. Eine Aussage "Erinnere mich an eine E-Mail in 5, nein 10 Minuten“ reicht, um die "Assistenz“ komplett zu verwirren. Die menschliche Selbstkorrektur, die jedes Kind versteht, überfordert das System, das Milliarden gekostet hat.
Im schottischen Comedy-Format Burnistoun versuchen zwei Männer 2010, einen sprachgesteuerten Aufzug zu bedienen. Sie sagen "Eleven“. Der Aufzug versteht sie nicht und bittet höflich um Wiederholung. Sie probieren es lauter, deutlicher, mit anderem Akzent. Der Aufzug versteht weiter nichts. Der Sketch ist 15 Jahre alt. Das Problem ist heute dasselbe. (Link zum Sketch)
Aktuelle Spracherkennungsmodelle erreichen für Hochdeutsch ungefähr 95 Prozent Worterkennung. Für Bayerisch sind es nur 87 bis 90 Prozent, für Schweizerdeutsch 80 bis 87 Prozent. Für Sächsisch, Plattdeutsch, Oberpfälzisch und Fränkisch gibt es keine Benchmarks, weil diese Dialekte in den Trainingsdaten kaum vorkommen.
Bei 90 Prozent Worterkennung und einem Satz mit zehn Wörtern liegt die Wahrscheinlichkeit, dass alle Wörter korrekt verstanden werden, bei rund 35 Prozent. Für eine Authentifizierung ist das unbrauchbar. Der Sachbearbeiter hat dann einen genervten Kunden am Telefon, der erneut alle Angaben machen muss.
Selbst wenn der Bot akustisch korrekt transkribiert, kann er semantisch das Gegenteil verstehen.
Im Sächsischen ist "Nü“ eine bestätigende Antwort. Für ein hochdeutsch trainiertes Modell klingt es wie eine Verneinung. "Nie“ steht für "nicht“, die Maschine versteht "niemals“. Im Fränkischen ist "Basst scho“ eine typische Aussage mit vielen Gesichtern. Sie kann Zustimmung oder Hinnahme sein, oft beides. Ein Hochdeutsch-Modell hört "passt so“ und liest es als klares "Ja“. Die Nuance geht verloren, und mit ihr die eigentliche Botschaft des Kunden. In der Oberpfalz bedeutet "Heujahr nimmer“ schlicht "dieses Jahr nicht mehr“. Das Wort "Heujahr“ wird in Trainingsdaten kaum einzutreffen sein.
Ein Voicebot eines Stadtwerks in Regensburg, Leipzig, Cottbus oder Nürnberg hat ein strukturelles Problem, das sich nicht durch Marketing-Versprechen lösen lässt. Die Erkennungsrate ist bei der Stammkundschaft messbar schlechter als bei Hochdeutsch-Sprechern.
Wenn der Prozess unklar ist, wird der Bot dümmer
In Chat- und Voicebot-Projekten habe ich häufig erlebt, wie monatelang über die Kundenauthentifizierung diskutiert wurde, bevor der Bot überhaupt ein erstes Wort sagen konnte. Die Idee ist simpel: "Der Bot fragt nach einem Merkmal und gleicht ab.“ In der Praxis scheitert diese Herangehensweise an den Datenmodellen.
Welche Adresse soll der Bot prüfen, wenn ein Vertrag drei kennt? Welche Kennung gilt als primär, wenn der Kunde zwei hat? Und in welchem System ist sie überhaupt verlässlich gespeichert?
Die Antwort liegt häufig im Haus selbst. Der Fachbereich kann oft nicht klar sagen, welche Stammdaten als Wahrheit gelten und wie mit Mehrdeutigkeiten umzugehen ist. Was fachlich nicht definiert ist, kann der Bot erst recht nicht deuten.
Die Diskussion legt ein Prozessproblem offen. Der Bot ist nur der Anlass, an dem es sichtbar wird. Was vorher unter Workarounds vergraben lag, kommt durch die Bot-Anforderung an die Oberfläche.
Bevor ein Bot kommt
Die Bitkom-Zahl ist einen zweiten Blick wert. Fast zwei Drittel der Kunden bevorzugen den Menschen. Sie verzweifeln, weil sie eine Auskunft nicht bekommen. Die Mitarbeiter fangen die Frustration auf, die der Bot erzeugt hat, oft mit reduzierter Belegschaft. Und das Unternehmen selbst hat für ein System bezahlt, das keine der versprochenen Wirkungen erzielt.
Wer einen Bot plant, kann daher mit folgenden Fragen anfangen:
- Ist die Wissensbasis vorhanden, strukturiert und gepflegt?
- Sind die Prozesse und die Datengrundlage klar definiert? Sind die Abläufe reif für Automatisierung?
- Was soll der Bot tun, wenn er keine Antwort kennt? Wie viele Fragen der Kunden kann er beantworten?
- Ist der Sprachbot in der Lage, unsere Stammkunden sicher zu verstehen?
Die Antworten legen dann offen, ob ein Chat- oder Voicebot eine passende Lösung ist, oder eine bessere FAQ-Seite und IVR-Menü hier schon 80% der Fälle abfangen kann.