Warum gibt ChatGPT verschiedene Antworten auf dieselbe Frage?

Sprachmodelle arbeiten mit Wahrscheinlichkeiten, nicht mit festen Regeln. Bei jedem Wort wird aus einer Wahrscheinlichkeitsverteilung gewählt. Hinzu kommen weitere Faktoren: Bei Diensten mit Gedächtnis fließen frühere Gespräche ein, Anbieter spielen im Hintergrund Aktualisierungen ein, und allein das doppelte Stellen einer Frage in derselben Konversation verändert den Kontext.

Was ist die Temperatur bei KI?

Die Temperatur ist ein Parameter, der steuert, wie stark ein Sprachmodell bei der Wahl des nächsten Wortes variiert. Eine hohe Temperatur erlaubt unwahrscheinlichere Wörter, eine niedrige bündelt die Antworten näher am wahrscheinlichsten. Bei Temperatur 0 wird jedes Mal die wahrscheinlichste Fortsetzung gewählt. Diesen Schalter sehen Endnutzer im Browser nicht, er wird vom Anbieter gesetzt.

Warum fällt uns die Schwankung der KI selten auf?

Mehrere Mechanismen wirken zusammen. Der ELIZA-Effekt lässt uns einen Gesprächspartner sehen, dessen Variation wir wie bei einem Menschen akzeptieren. Selbst wenn wir die Schwankung bemerken, reden wir das Problem oft klein, ein Vorgang, den die Psychologie als kognitive Dissonanz beschreibt. Außerdem prüfen wir selten, indem wir dieselbe Frage zweimal stellen.

Kann man eine KI deterministisch machen?

Mit Temperatur 0 werden Antworten deutlich stabiler. Aber auch dann ist die Antwort nicht garantiert richtig, sondern nur konsistenter. Der Würfel wird ruhiger, bleibt aber ein Würfel.

Für welche Aufgaben eignet sich KI, für welche nicht?

KI eignet sich für Aufgaben, bei denen Streuung wertvoll ist: Texte entwerfen, Vorschläge generieren, Inhalte zusammenfassen. Für Aufgaben, die hundertprozentig stabil sein müssen, etwa Rechnungen, Verträge oder regulierte Datenverarbeitung, ist ein Sprachmodell das falsche Werkzeug. Hier braucht es ein Uhrwerk, das immer gleich tickt.

KI ohne Hype: Würfel oder Uhrwerk, warum KI auf dieselbe Frage anders antwortet

Im Dezember 1926 schrieb Albert Einstein einen Brief an Max Born. Es ging um die noch junge Quantenmechanik, die damals die Physik in Aufruhr versetzte. Einstein lehnte ihre wahrscheinlichkeitsbasierte Beschreibung der Welt ab. Er schrieb: "Jedenfalls bin ich überzeugt, daß der nicht würfelt." Gemeint war der Alte, also Gott. Aus diesem Satz wurde die bekannte Kurzform "Gott würfelt nicht".

Einstein hatte unrecht. Auf der kleinsten Ebene regiert der Zufall, das hat die Wissenschaft inzwischen vielfach bestätigt. Er konnte sich damit bis zu seinem Tod 1955 nicht anfreunden.

Eine ähnliche Spannung erleben wir heute mit Sprachmodellen. Wir wünschen uns Software, die immer gleich funktioniert. Was wir bekommen, ist ein System, das bei jedem Wort würfelt.

Wie würfelt eine KI?

Strichmännchen-Roboter mit Fieberthermometer im Mund und einem Würfel in der Hand, Gedankenwolke mit Fortsetzungen für 'Die Katze sitzt auf der... Fensterbank? Matte? Veranda? Deckenleuchte?', Illustration der Wahrscheinlichkeitsverteilung und Temperatur bei KI-Sprachmodellen

Ein Sprachmodell arbeitet mit Wörtern. Bei jedem Einzelnen berechnet es, welche Fortsetzung statistisch am wahrscheinlichsten ist. Stellen Sie sich den Satzanfang vor: "Die Katze saß auf der…" Das Modell rechnet aus, dass "die Fensterbank" in 60% der Fälle das häufigste nächste Wort ist, "die Matte" in 20%, "die Treppe" in 5%, "die Veranda" in 1%. "Die Spülmaschine" kommt dagegen fast nie vor.

Aus dieser Wahrscheinlichkeitsverteilung wählt das Modell. Würde es immer das wahrscheinlichste Wort wählen, käme jedes Mal dieselbe Antwort heraus, vorausgesetzt, die Trainingsdaten haben sich nicht geändert. Das tut es nicht. Das Modell "würfelt" und entscheidet sich mal für "die Matte", mal für "die Deckenleuchte".

Was das in der Praxis bedeutet

Stellen Sie sich vor, eine Mitarbeiterin will mit ChatGPT eine Kundenkommunikation zur Anpassung eines Gewerbevertrags nach geänderten Netzentgelten entwerfen. Sie tippt ihre Frage ein und bekommt einen Entwurf. Am nächsten Tag braucht sie eine Variante für einen weiteren Kunden und fragt ähnlich. Die Antwort ist nicht identisch. Sie wundert sich, warum die Argumentation und die Reihenfolge der Punkte anders sind.

Das passiert aus mehreren Gründen gleichzeitig. Das Modell würfelt, wie eben beschrieben. Der Zusammenhang ändert sich, da bei Diensten mit Gedächtnis frühere Gespräche mit einfließen. In der Zwischenzeit kann das Modell selbst sich geändert haben. Anbieter spielen im Hintergrund Aktualisierungen ein, ergänzen Trainingsdaten oder veröffentlichen neue Modellversionen. Wird die reichhaltige japanische Literatur über die Katzen eingespielt und stärker gewichtet, steigt plötzlich "die Matte" im Ranking auf. Und allein der Versuch, dieselbe Frage in einer laufenden Konversation zweimal zu stellen, erzeugt womöglich unterschiedliche Reaktionen, weil der erste Austausch selbst ein Teil der Eingabe geworden ist.

Dabei gilt: Wenn man verschiedene Auskünfte bekommt, heißt es noch lange nicht, dass eine davon korrekt ist. Alle können danebenliegen. Wer den Strawberries-Test aus dem vorigen Artikel kennt, weiß: Eine KI kann hartnäckig falsch und selbstsicher antworten.

Warum wir den Würfel nicht sehen

Das Erstaunliche ist, wie selten uns die Varianz auffällt. Wer eine Frage an die KI stellt und eine Antwort bekommt, überlegt kaum, wie diese vor einer Stunde ausgesehen hätte oder morgen aussehen wird. Die Schwankung ist da, aber sie bleibt für uns unsichtbar.

Dafür gibt es einige Gründe. Der wichtigste ist der ELIZA-Effekt, den ich in einem eigenen Artikel ausführlich beschrieben habe. Wenn eine Maschine flüssig formuliert, sehen wir einen denkenden Gesprächspartner, dem wir genauso wie Menschen eine gewisse Varianz in seinen Reaktionen zugestehen. Wir setzen die beiden Arten von Variation gleich, dabei sind sie grundsätzlich verschieden. Bei uns kommt sie aus Erfahrung, Stimmung, Müdigkeit, bei einer KI aus einer Wahrscheinlichkeitsrechnung.

Selbst wenn die Schwankung sichtbar wird, reagieren wir oft nicht. Wenn unser Verhalten (KI nutzen) und unser Wissen (KI ist unzuverlässig) nicht zusammenpassen, entsteht das, was die Psychologie als kognitive Dissonanz beschreibt. Diesen inneren Druck lösen wir meistens, indem wir das Wissen kleinrechnen. "So schlimm wird es schon nicht sein." "Bei uns funktioniert es ja." "Die anderen übertreiben." Damit ist die Dissonanz weg, und die KI bleibt im Einsatz.

Außerdem prüfen wir die Schwankungen nicht. Wer würde dieselbe Frage zweimal stellen? Wir bekommen eine Antwort und arbeiten damit weiter. Die Variation bleibt verborgen. Erst wenn uns klar wird, dass jede Reaktion eine Schätzung aus einer Wahrscheinlichkeitsverteilung ist, ändert sich die Frage. Aus "Was hat die KI gesagt?" wird "Wie stabil ist diese Antwort?". Und diese Frage ist entscheidend für den praktischen Einsatz in kritischen Geschäftsprozessen.

Kann man den Würfel beruhigen?

Ja, in Grenzen. Die meisten Sprachmodelle haben einen Parameter namens Temperatur, der genau das steuert. Je höher die Temperatur gesetzt wird, desto stärker variiert das Modell bei der Wahl des nächsten Wortes. Bei Temperatur 0 wird jedes Mal die wahrscheinlichste Fortsetzung gewählt. Die Antworten werden dadurch deutlich stabiler.

Wichtig zu wissen: Diesen Schalter sehen Sie nicht, wenn Sie ChatGPT oder Claude im Browser nutzen. Dort ist die Temperatur fest eingestellt, meist auf einen mittleren Wert. Der Schalter taucht erst dann auf, wenn ein Anbieter ein Sprachmodell in ein eigenes System einbaut. In dem Moment trifft jemand eine Entscheidung über die Temperatur. Diese Einstellung beeinflusst unmittelbar, wie verlässlich die Antworten Ihres KI-Systems am Ende sind.

Das hat direkte Folgen in der Praxis: Wenn Sie einen KI-gestützten Chatbot oder einen Agenten bei sich einführen, lohnt sich die Nachfrage beim Anbieter. Welche Temperatur wurde gewählt? Warum? Wie passt sie zu der Aufgabe, die das System bei Ihnen lösen soll? Niedrige Temperatur für Berechnungen und faktische Auskünfte, höhere für kreative Textentwürfe. Wer diese Frage nicht stellt, akzeptiert eine Voreinstellung, die der Anbieter aus seiner eigenen Perspektive getroffen hat, nicht aus Ihrer.

Eines bleibt aber auch bei Temperatur 0: Die Antwort ist nicht garantiert richtig. Sie ist nur konsistenter. Bei Strawberries werden jedes Mal zwei R gezählt. Es bleibt dabei, dass ein Sprachmodell das nächste Wort auf Basis der Wahrscheinlichkeiten vorhersagt.

Würfel oder Uhrwerk, die Werkzeugwahl bleibt

Was bedeutet das für den praktischen Einsatz von KI? Es führt zu derselben Werkzeugwahl, die sich durch diese ganze Serie zieht. Es gibt Aufgaben, bei denen Streuung wertvoll ist. Texte entwerfen, Vorschläge generieren, Inhalte zusammenfassen, kreative Varianten ausloten. Hier ist der Würfel ein Vorteil. Genau die Varianz, die ein deterministisches System nie liefern würde, macht die KI hier nützlich.

Es gibt andere Aufgaben, bei denen Stabilität gebraucht wird. Eine Rechnung, die jedes Mal gleich ausfallen muss. Ein Vertrag, der bei gleicher Eingabe dieselbe Formulierung haben sollte. Eine Datenverarbeitung, deren Ergebnis prüfbar und nachvollziehbar sein muss. Bei solchen Themen ist ein Sprachmodell das falsche Werkzeug. Hier braucht es ein Uhrwerk, das immer gleich tickt.

Einstein hat sich mit dem Würfel der Quantenphysik nicht abfinden können. Er hat bis zu seinem Tod gegen die Stochastik der Natur gekämpft. Die Wissenschaft hat die Quantenmechanik trotzdem als beste verfügbare Beschreibung der Wirklichkeit akzeptiert. Begeisterung war dabei selten, eher Notwendigkeit. Bei der KI stehen wir vor derselben Aufgabe. Sie würfelt, und sie wird weiter würfeln. Wir können den Würfel nicht entfernen. Was wir tun können, ist zu lernen, mit ihm zu arbeiten und ihn nur dort einzusetzen, wo seine Streuung uns nützt.

Quellen und weiterführende Links

Einstein und der Determinismus

Wikipedia, "Gott würfelt nicht": https://de.wikipedia.org/wiki/Gott_w%C3%BCrfelt_nicht
AnthroWiki mit detailliertem Originalzitat und Kontext: https://anthrowiki.at/Gott_w%C3%BCrfelt_nicht
Spektrum SciLogs, "Der liebe Gott würfelt nicht! Einstein und der Determinismus": https://scilogs.spektrum.de/menschen-bilder/der-liebe-gott-wuerfelt-nicht-einstein-und-der-determinismus/

Temperatur und Sampling bei Sprachmodellen

EbeneX Glossar Temperatur: https://www.ebenex.de/glossar/temperatur/
Intercessio, "Was ist Temperatur bei KI?": https://intercessio.de/was-ist-temperatur-bei-ki-der-unsichtbare-hebel-fuer-guten-output/

Kognitive Dissonanz

Festinger (1957), "A Theory of Cognitive Dissonance", Stanford University Press
Wikipedia, Kognitive Dissonanz: https://de.wikipedia.org/wiki/Kognitive_Dissonanz