Warum scheitern so viele Chatbots im Kundenservice?

Drei strukturelle Gründe: Die Wissensbasis ist zu groß und ungepflegt, das Sprachmodell hat keinen Mechanismus zur Selbstprüfung, und aus Haftungsangst wird der Bot so eng konfiguriert, dass er die Hälfte aller Fragen abweist. Alle drei Probleme entstehen vor der Bot-Einführung, nicht durch sie.

Was ist der Unterschied zwischen einem Chatbot und einem Voicebot?

Ein Chatbot verarbeitet geschriebenen Text, ein Voicebot gesprochene Sprache. Voicebots haben alle Probleme der Chatbots und zusätzliche eigene: fehleranfällige Spracherkennung, keine visuelle Unterstützung und besonders schwierige Authentifizierung.

Erkennt ein Voicebot bayerische oder sächsische Dialekte?

Nur eingeschränkt. Für Hochdeutsch liegt die Erkennungsrate bei rund 95 Prozent, für Bayerisch bei 87 bis 90 Prozent, für Schweizerdeutsch bei 80 bis 87 Prozent. Für Sächsisch, Fränkisch und Plattdeutsch gibt es keine Benchmarks, weil diese Dialekte in den Trainingsdaten der Modelle kaum vorkommen.

Wann lohnt sich ein Chatbot?

Wenn die Wissensbasis strukturiert und gepflegt ist, wenn die zugrunde liegenden Prozesse klar definiert sind und wenn geklärt ist, wie der Bot mit Fragen umgeht, die er nicht beantworten kann. Ohne diese Vorbereitung wird der Bot die Probleme verstärken, statt sie zu lösen.

Was ist die Alternative zu einem Chatbot?

Eine gut gepflegte FAQ-Seite und ein klar geführter IVR-Pfad können in vielen Fällen 80 Prozent der Kundenanfragen abfangen. Für die restlichen 20 Prozent ist ein gut ausgestatteter Mitarbeiter oft die bessere Wahl als ein Bot, der Standardantworten produziert.

Wie prüfe ich, ob mein Prozess für einen Bot geeignet ist?

Eine strukturierte Eignungsprüfung führt zur passenden Antwort. Die HOIKEI-Methodik bewertet den Reifegrad des Prozesses und die Eignung für Automatisierung entlang klarer Kriterien.

Der Bot, der niemandem hilft: Warum Chatbots und Voicebots scheitern

Sie tippen Ihre Frage in das kleine Chatfenster auf einer Webseite. Vielleicht bei Ihrer Bank, vielleicht bei einem Versandhändler, vielleicht bei Ihrer Versicherung. Sie formulieren die Frage klar und höflich, weil Sie sich an ChatGPT gewöhnt haben. Kurz darauf kommt die Antwort. Sie hat mit Ihrer Frage nichts zu tun. Sie versuchen es noch einmal, einfacher, mit anderen Worten. Die nächste Antwort ist ein Textbaustein aus den FAQ. Sie geben auf und wählen die Servicenummer. Diese Erfahrung ist in Studien belegt. Eine aktuelle Umfrage des Digitalverbands Bitkom zeigt: 62 Prozent der Online-Shopper wollen bei Problemen mit einem Menschen sprechen, nur 36 Prozent wünschen sich einen Chatbot als Kundenservice. Und selbst unter den Kunden, die einen Chatbot nutzen, ist nur die Hälfte damit zufrieden.

Kunden erwarten seit ChatGPT einen Ansprechpartner, der ihre Frage versteht, den Kontext hält und im Zweifel nachfragt anstatt zu raten. Sie bekommen einen FAQ-Automaten in neuem Kleid. Die Enttäuschung ist vorprogrammiert.

Was strukturell schiefläuft

Chaotische Wissensbasis. Der Kunde fragt: "Wann darf ich meinen Vertrag kündigen?“ In der Bibliothek des Bots liegen drei Antworten. Eine aus der aktuellen AGB, eine aus einem alten FAQ von 2021, eine aus einem Rundschreiben zur Preisanpassung von 2023. Alle drei sind wahr. Nur zwei davon gelten für diesen speziellen Kunden. Der Bot weiß das nicht und wählt eine aus. Wenn es die Falsche ist, hat entweder der Kunde oder das Unternehmen Pech.

Sprachmodelle ohne Bremse. Ein Sprachmodell arbeitet grundsätzlich nicht deterministisch und kann je nach Einstellungen unterschiedliche Auskünfte zum gleichen Thema geben. Hinzu kommt, dass "lieber nicht antworten“ nicht eingebaut ist. So halluziniert die generative KI und sagt selbstbewusst das Falsche. Das Modell hat konstruktionsbedingt keinen zuverlässigen Mechanismus zur Selbstprüfung.

Vorsichts-Architektur. Aus Haftungsangst wird der Bot so eng konfiguriert, dass er bei der Hälfte aller Fragen sagt: "Wenden Sie sich an unseren Service.“ Das Werkzeug ist da, der Sinn ist weg. Der Kunde landet trotzdem in der Hotline. Er hat aber vorher Zeit verloren und ist genervt.

Voicebots und die Sprache

Voicebots haben alle Probleme der Chatbots. Plus etliche eigene.

Speech-to-Text ist fehleranfällig. Zwischengeräusche, schnelle Sprache, Unsicherheit im Ausdruck. Ein Tippfehler im Chat kann der Kunde merken und korrigieren. Ein Versprecher am Telefon nicht. Der Kunde am Telefon hat zudem keine visuelle Unterstützung. Er muss alles im Kopf behalten und sich extrem klar und fehlerfrei äußern. Ich bin selbst öfters daran gescheitert, eine Erinnerung oder einen Timer über Siri einzurichten. Eine Aussage "Erinnere mich an eine E-Mail in 5, nein 10 Minuten“ reicht, um die "Assistenz“ komplett zu verwirren. Die menschliche Selbstkorrektur, die jedes Kind versteht, überfordert das System, das Milliarden gekostet hat.

Im schottischen Comedy-Format Burnistoun versuchen zwei Männer 2010, einen sprachgesteuerten Aufzug zu bedienen. Sie sagen "Eleven“. Der Aufzug versteht sie nicht und bittet höflich um Wiederholung. Sie probieren es lauter, deutlicher, mit anderem Akzent. Der Aufzug versteht weiter nichts. Der Sketch ist 15 Jahre alt. Das Problem ist heute dasselbe. (Link zum Sketch)

Aktuelle Spracherkennungsmodelle erreichen für Hochdeutsch ungefähr 95 Prozent Worterkennung. Für Bayerisch sind es nur 87 bis 90 Prozent, für Schweizerdeutsch 80 bis 87 Prozent. Für Sächsisch, Plattdeutsch, Oberpfälzisch und Fränkisch gibt es keine Benchmarks, weil diese Dialekte in den Trainingsdaten kaum vorkommen.

Bei 90 Prozent Worterkennung und einem Satz mit zehn Wörtern liegt die Wahrscheinlichkeit, dass alle Wörter korrekt verstanden werden, bei rund 35 Prozent. Für eine Authentifizierung ist das unbrauchbar. Der Sachbearbeiter hat dann einen genervten Kunden am Telefon, der erneut alle Angaben machen muss.

Selbst wenn der Bot akustisch korrekt transkribiert, kann er semantisch das Gegenteil verstehen.

Im Sächsischen ist "Nü“ eine bestätigende Antwort. Für ein hochdeutsch trainiertes Modell klingt es wie eine Verneinung. "Nie“ steht für "nicht“, die Maschine versteht "niemals“. Im Fränkischen ist "Basst scho“ eine typische Aussage mit vielen Gesichtern. Sie kann Zustimmung oder Hinnahme sein, oft beides. Ein Hochdeutsch-Modell hört "passt so“ und liest es als klares "Ja“. Die Nuance geht verloren, und mit ihr die eigentliche Botschaft des Kunden. In der Oberpfalz bedeutet "Heujahr nimmer“ schlicht "dieses Jahr nicht mehr“. Das Wort "Heujahr“ wird in Trainingsdaten kaum einzutreffen sein.

Skizzenhafte Illustration: Eine Frau telefoniert und sagt 'Nü' mit erhobenem Daumen als Zeichen der Zustimmung. Rechts steht ein technisch aufwendiger Voicebot mit Headset. In seiner Gedankenblase steht 'Nein? Warum? ...' Der Bot versteht das sächsische 'Nü' als Verneinung und bleibt in seiner Frage stecken.

Ein Voicebot eines Stadtwerks in Regensburg, Leipzig, Cottbus oder Nürnberg hat ein strukturelles Problem, das sich nicht durch Marketing-Versprechen lösen lässt. Die Erkennungsrate ist bei der Stammkundschaft messbar schlechter als bei Hochdeutsch-Sprechern.

Wenn der Prozess unklar ist, wird der Bot dümmer

In Chat- und Voicebot-Projekten habe ich häufig erlebt, wie monatelang über die Kundenauthentifizierung diskutiert wurde, bevor der Bot überhaupt ein erstes Wort sagen konnte. Die Idee ist simpel: "Der Bot fragt nach einem Merkmal und gleicht ab.“ In der Praxis scheitert diese Herangehensweise an den Datenmodellen.

Welche Adresse soll der Bot prüfen, wenn ein Vertrag drei kennt? Welche Kennung gilt als primär, wenn der Kunde zwei hat? Und in welchem System ist sie überhaupt verlässlich gespeichert?

Die Antwort liegt häufig im Haus selbst. Der Fachbereich kann oft nicht klar sagen, welche Stammdaten als Wahrheit gelten und wie mit Mehrdeutigkeiten umzugehen ist. Was fachlich nicht definiert ist, kann der Bot erst recht nicht deuten.

Die Diskussion legt ein Prozessproblem offen. Der Bot ist nur der Anlass, an dem es sichtbar wird. Was vorher unter Workarounds vergraben lag, kommt durch die Bot-Anforderung an die Oberfläche.

Bevor ein Bot kommt

Die Bitkom-Zahl ist einen zweiten Blick wert. Fast zwei Drittel der Kunden bevorzugen den Menschen. Sie verzweifeln, weil sie eine Auskunft nicht bekommen. Die Mitarbeiter fangen die Frustration auf, die der Bot erzeugt hat, oft mit reduzierter Belegschaft. Und das Unternehmen selbst hat für ein System bezahlt, das keine der versprochenen Wirkungen erzielt.

Wer einen Bot plant, kann daher mit folgenden Fragen anfangen:

Ist die Wissensbasis vorhanden, strukturiert und gepflegt?
Sind die Prozesse und die Datengrundlage klar definiert? Sind die Abläufe reif für Automatisierung?
Was soll der Bot tun, wenn er keine Antwort kennt? Wie viele Fragen der Kunden kann er beantworten?
Ist der Sprachbot in der Lage, unsere Stammkunden sicher zu verstehen?

Die Antworten legen dann offen, ob ein Chat- oder Voicebot eine passende Lösung ist, oder eine bessere FAQ-Seite und IVR-Menü hier schon 80% der Fälle abfangen kann.

Der Bot, der niemandem hilft: Warum Chatbots und Voicebots an Sprache und Prozessen scheitern

Was strukturell schiefläuft

Voicebots und die Sprache

Wenn der Prozess unklar ist, wird der Bot dümmer

Bevor ein Bot kommt

Häufige Fragen

Warum scheitern so viele Chatbots im Kundenservice?

Was ist der Unterschied zwischen einem Chatbot und einem Voicebot?

Erkennt ein Voicebot bayerische oder sächsische Dialekte?

Wann lohnt sich ein Chatbot?

Was ist die Alternative zu einem Chatbot?

Wie prüfe ich, ob mein Prozess für einen Bot geeignet ist?

Quellen und weitere Links

Studien und Berichte:

Dialekt-Benchmarks:

Kulturelle Referenz:

Der Bot, der niemandem hilft: Warum Chatbots und Voicebots an Sprache und Prozessen scheitern

Was strukturell schiefläuft

Voicebots und die Sprache

Wenn der Prozess unklar ist, wird der Bot dümmer

Bevor ein Bot kommt

Häufige Fragen

Warum scheitern so viele Chatbots im Kundenservice?

Was ist der Unterschied zwischen einem Chatbot und einem Voicebot?

Erkennt ein Voicebot bayerische oder sächsische Dialekte?

Wann lohnt sich ein Chatbot?

Was ist die Alternative zu einem Chatbot?

Wie prüfe ich, ob mein Prozess für einen Bot geeignet ist?

Quellen und weitere Links

Studien und Berichte:

Dialekt-Benchmarks:

Kulturelle Referenz:

Das könnte Sie auch interessieren