Im Dezember 1926 schrieb Albert Einstein einen Brief an Max Born. Es ging um die noch junge Quantenmechanik, die damals die Physik in Aufruhr versetzte. Einstein lehnte ihre wahrscheinlichkeitsbasierte Beschreibung der Welt ab. Er schrieb: "Jedenfalls bin ich überzeugt, daß der nicht würfelt." Gemeint war der Alte, also Gott. Aus diesem Satz wurde die bekannte Kurzform "Gott würfelt nicht".
Einstein hatte unrecht. Auf der kleinsten Ebene regiert der Zufall, das hat die Wissenschaft inzwischen vielfach bestätigt. Er konnte sich damit bis zu seinem Tod 1955 nicht anfreunden.
Eine ähnliche Spannung erleben wir heute mit Sprachmodellen. Wir wünschen uns Software, die immer gleich funktioniert. Was wir bekommen, ist ein System, das bei jedem Wort würfelt.
Wie würfelt eine KI?
Ein Sprachmodell arbeitet mit Wörtern. Bei jedem Einzelnen berechnet es, welche Fortsetzung statistisch am wahrscheinlichsten ist. Stellen Sie sich den Satzanfang vor: "Die Katze saß auf der…" Das Modell rechnet aus, dass "die Fensterbank" in 60% der Fälle das häufigste nächste Wort ist, "die Matte" in 20%, "die Treppe" in 5%, "die Veranda" in 1%. "Die Spülmaschine" kommt dagegen fast nie vor.
Aus dieser Wahrscheinlichkeitsverteilung wählt das Modell. Würde es immer das wahrscheinlichste Wort wählen, käme jedes Mal dieselbe Antwort heraus, vorausgesetzt, die Trainingsdaten haben sich nicht geändert. Das tut es nicht. Das Modell "würfelt" und entscheidet sich mal für "die Matte", mal für "die Deckenleuchte".
Was das in der Praxis bedeutet
Stellen Sie sich vor, eine Mitarbeiterin will mit ChatGPT eine Kundenkommunikation zur Anpassung eines Gewerbevertrags nach geänderten Netzentgelten entwerfen. Sie tippt ihre Frage ein und bekommt einen Entwurf. Am nächsten Tag braucht sie eine Variante für einen weiteren Kunden und fragt ähnlich. Die Antwort ist nicht identisch. Sie wundert sich, warum die Argumentation und die Reihenfolge der Punkte anders sind.
Das passiert aus mehreren Gründen gleichzeitig. Das Modell würfelt, wie eben beschrieben. Der Zusammenhang ändert sich, da bei Diensten mit Gedächtnis frühere Gespräche mit einfließen. In der Zwischenzeit kann das Modell selbst sich geändert haben. Anbieter spielen im Hintergrund Aktualisierungen ein, ergänzen Trainingsdaten oder veröffentlichen neue Modellversionen. Wird die reichhaltige japanische Literatur über die Katzen eingespielt und stärker gewichtet, steigt plötzlich "die Matte" im Ranking auf. Und allein der Versuch, dieselbe Frage in einer laufenden Konversation zweimal zu stellen, erzeugt womöglich unterschiedliche Reaktionen, weil der erste Austausch selbst ein Teil der Eingabe geworden ist.
Dabei gilt: Wenn man verschiedene Auskünfte bekommt, heißt es noch lange nicht, dass eine davon korrekt ist. Alle können danebenliegen. Wer den Strawberries-Test aus dem vorigen Artikel kennt, weiß: Eine KI kann hartnäckig falsch und selbstsicher antworten.
Warum wir den Würfel nicht sehen
Das Erstaunliche ist, wie selten uns die Varianz auffällt. Wer eine Frage an die KI stellt und eine Antwort bekommt, überlegt kaum, wie diese vor einer Stunde ausgesehen hätte oder morgen aussehen wird. Die Schwankung ist da, aber sie bleibt für uns unsichtbar.
Dafür gibt es einige Gründe. Der wichtigste ist der ELIZA-Effekt, den ich in einem eigenen Artikel ausführlich beschrieben habe. Wenn eine Maschine flüssig formuliert, sehen wir einen denkenden Gesprächspartner, dem wir genauso wie Menschen eine gewisse Varianz in seinen Reaktionen zugestehen. Wir setzen die beiden Arten von Variation gleich, dabei sind sie grundsätzlich verschieden. Bei uns kommt sie aus Erfahrung, Stimmung, Müdigkeit, bei einer KI aus einer Wahrscheinlichkeitsrechnung.
Selbst wenn die Schwankung sichtbar wird, reagieren wir oft nicht. Wenn unser Verhalten (KI nutzen) und unser Wissen (KI ist unzuverlässig) nicht zusammenpassen, entsteht das, was die Psychologie als kognitive Dissonanz beschreibt. Diesen inneren Druck lösen wir meistens, indem wir das Wissen kleinrechnen. "So schlimm wird es schon nicht sein." "Bei uns funktioniert es ja." "Die anderen übertreiben." Damit ist die Dissonanz weg, und die KI bleibt im Einsatz.
Außerdem prüfen wir die Schwankungen nicht. Wer würde dieselbe Frage zweimal stellen? Wir bekommen eine Antwort und arbeiten damit weiter. Die Variation bleibt verborgen. Erst wenn uns klar wird, dass jede Reaktion eine Schätzung aus einer Wahrscheinlichkeitsverteilung ist, ändert sich die Frage. Aus "Was hat die KI gesagt?" wird "Wie stabil ist diese Antwort?". Und diese Frage ist entscheidend für den praktischen Einsatz in kritischen Geschäftsprozessen.
Kann man den Würfel beruhigen?
Ja, in Grenzen. Die meisten Sprachmodelle haben einen Parameter namens Temperatur, der genau das steuert. Je höher die Temperatur gesetzt wird, desto stärker variiert das Modell bei der Wahl des nächsten Wortes. Bei Temperatur 0 wird jedes Mal die wahrscheinlichste Fortsetzung gewählt. Die Antworten werden dadurch deutlich stabiler.
Wichtig zu wissen: Diesen Schalter sehen Sie nicht, wenn Sie ChatGPT oder Claude im Browser nutzen. Dort ist die Temperatur fest eingestellt, meist auf einen mittleren Wert. Der Schalter taucht erst dann auf, wenn ein Anbieter ein Sprachmodell in ein eigenes System einbaut. In dem Moment trifft jemand eine Entscheidung über die Temperatur. Diese Einstellung beeinflusst unmittelbar, wie verlässlich die Antworten Ihres KI-Systems am Ende sind.
Das hat direkte Folgen in der Praxis: Wenn Sie einen KI-gestützten Chatbot oder einen Agenten bei sich einführen, lohnt sich die Nachfrage beim Anbieter. Welche Temperatur wurde gewählt? Warum? Wie passt sie zu der Aufgabe, die das System bei Ihnen lösen soll? Niedrige Temperatur für Berechnungen und faktische Auskünfte, höhere für kreative Textentwürfe. Wer diese Frage nicht stellt, akzeptiert eine Voreinstellung, die der Anbieter aus seiner eigenen Perspektive getroffen hat, nicht aus Ihrer.
Eines bleibt aber auch bei Temperatur 0: Die Antwort ist nicht garantiert richtig. Sie ist nur konsistenter. Bei Strawberries werden jedes Mal zwei R gezählt. Es bleibt dabei, dass ein Sprachmodell das nächste Wort auf Basis der Wahrscheinlichkeiten vorhersagt.
Würfel oder Uhrwerk, die Werkzeugwahl bleibt
Was bedeutet das für den praktischen Einsatz von KI? Es führt zu derselben Werkzeugwahl, die sich durch diese ganze Serie zieht. Es gibt Aufgaben, bei denen Streuung wertvoll ist. Texte entwerfen, Vorschläge generieren, Inhalte zusammenfassen, kreative Varianten ausloten. Hier ist der Würfel ein Vorteil. Genau die Varianz, die ein deterministisches System nie liefern würde, macht die KI hier nützlich.
Es gibt andere Aufgaben, bei denen Stabilität gebraucht wird. Eine Rechnung, die jedes Mal gleich ausfallen muss. Ein Vertrag, der bei gleicher Eingabe dieselbe Formulierung haben sollte. Eine Datenverarbeitung, deren Ergebnis prüfbar und nachvollziehbar sein muss. Bei solchen Themen ist ein Sprachmodell das falsche Werkzeug. Hier braucht es ein Uhrwerk, das immer gleich tickt.
Einstein hat sich mit dem Würfel der Quantenphysik nicht abfinden können. Er hat bis zu seinem Tod gegen die Stochastik der Natur gekämpft. Die Wissenschaft hat die Quantenmechanik trotzdem als beste verfügbare Beschreibung der Wirklichkeit akzeptiert. Begeisterung war dabei selten, eher Notwendigkeit. Bei der KI stehen wir vor derselben Aufgabe. Sie würfelt, und sie wird weiter würfeln. Wir können den Würfel nicht entfernen. Was wir tun können, ist zu lernen, mit ihm zu arbeiten und ihn nur dort einzusetzen, wo seine Streuung uns nützt.
Quellen und weiterführende Links
Einstein und der Determinismus
- Wikipedia, "Gott würfelt nicht": https://de.wikipedia.org/wiki/Gott_w%C3%BCrfelt_nicht
- AnthroWiki mit detailliertem Originalzitat und Kontext: https://anthrowiki.at/Gott_w%C3%BCrfelt_nicht
- Spektrum SciLogs, "Der liebe Gott würfelt nicht! Einstein und der Determinismus": https://scilogs.spektrum.de/menschen-bilder/der-liebe-gott-wuerfelt-nicht-einstein-und-der-determinismus/
Temperatur und Sampling bei Sprachmodellen
- EbeneX Glossar Temperatur: https://www.ebenex.de/glossar/temperatur/
- Intercessio, "Was ist Temperatur bei KI?": https://intercessio.de/was-ist-temperatur-bei-ki-der-unsichtbare-hebel-fuer-guten-output/
Kognitive Dissonanz
- Festinger (1957), "A Theory of Cognitive Dissonance", Stanford University Press
- Wikipedia, Kognitive Dissonanz: https://de.wikipedia.org/wiki/Kognitive_Dissonanz