KI ohne Hype: Wie ChatGPT funktioniert, einfach erklärt

Der Science-Fiction-Autor Arthur C. Clarke hat einmal gesagt: "Jede hinreichend fortschrittliche Technologie ist von Magie nicht zu unterscheiden."

Eine entspannte rote Katze sitzt auf einem aktiven Staubsaugerroboter und lässt sich gemütlich durch das Wohnzimmer fahren Typischerweise wird das clarksche Gesetz angewandt, um ein Treffen auf eine unvorstellbare Technologie zu beschreiben. Jemandem aus dem Mittelalter würde mein Staubsaugerroboter unheimlich erscheinen. Wir wissen dagegen genau, was er tun kann und was nicht. Wir erwarten nicht, dass er uns Kaffee kocht oder uns erklärt, wie die Welt funktioniert, wir können das Gerät und seine Funktionsweise mühelos einordnen. Wenn eine Technologie magisch scheint, fehlt eben diese Einordnung. Es wird schwer, eine Klarheit darüber zu gewinnen, was kann sie und was kann sie nicht. Aus falschen Erwartungen werden falsche Entscheidungen, im Geschäftlichen wie im Privaten.

Warum trifft das clarkesche dritte Gesetz ausgerechnet die KI?

Am 30. November 2022 stellte OpenAI ein Werkzeug namens ChatGPT als kostenlose Forschungsvorschau ins Netz. Innerhalb von fünf Tagen sprachen eine Million Menschen mit ihm. Es war der schnellste Nutzerzuwachs, den die digitale Welt bis dahin gesehen hatte.

Für die Allgemeinheit kam dieses Werkzeug aus dem Nichts. Es gab keine langsame Gewöhnung wie vom Scheibentelefon über das Tastentelefon zum Smartphone. Es gab nicht einmal eine Vorankündigung im klassischen Sinn. Plötzlich konnte jeder mit einer Maschine sprechen, die flüssig antwortete und fast auf alles eine passende Reaktion hatte. Das Verblüffende dabei ist, dass selbst OpenAI von der Wirkung überrascht wurde. Intern war ChatGPT als "research preview" geplant, nicht als Produktstart. Die jahrelange Vorgeschichte, die zu diesem Moment führte, kannte praktisch niemand außerhalb der Forschungslabore. Das ist genau die Lücke, die das clarksche Gesetz definiert. Wer Entwicklungsstufen nicht miterlebt hat und auf einmal an der oberen Treppenstufe steht, dem muss es wie Magie vorkommen.

Verstärkt wird der Eindruck durch das, was die Maschine tut. Ein Staubsaugerroboter fährt umher und saugt. Das Reden und Verstehen war bisher Menschen vorbehalten. Zum ersten Mal trafen wir mit ChatGPT auf etwas, was auf uns menschlich wirkte: Der Sprachbot sprach flüssig, ging auf uns ein, antwortete sinnvoll. Und weil wir nicht hinter den Vorgang sehen konnten, ergänzte unser Gehirn die Lücke mit dem einzigen Bild, das es bisher kannte: einem denkenden Gegenüber.

Was steckt wirklich dahinter?

Die Idee, auf der heutige Sprachmodelle beruhen, ist über tausend Jahre alt. Im 9. Jahrhundert erkannte der arabische Gelehrte Al-Kindi, dass in jeder Sprache Zeichen und Zeichenfolgen mit einer typischen Häufigkeit vorkommen. Wer diese Frequenzen kennt, kann eine verschlüsselte Nachricht knacken, weil das häufigste Zeichen im Geheimtext wahrscheinlich dem häufigsten Zeichen der Sprache entspricht.

1843 baute Edgar Allan Poe seine Erzählung "Der Goldkäfer" auf genau diese Methode auf. Sein Held entschlüsselt eine Geheimschrift, indem er zählt, welches Zeichen am häufigsten vorkommt, und schließt, dass es für den häufigsten Buchstaben der Sprache steht. Sechzig Jahre später ließ Arthur Conan Doyle seinen Sherlock Holmes in "Die tanzenden Männchen" exakt so vorgehen, er erkennt die Strichmännchen als Geheimschrift und knackt sie über die Häufigkeit der Figuren.

Vom Zählen einzelner Zeichen bis zum Vorhersagen ganzer Sätze fehlen zwei entscheidende Schritte. Den Ersten machte der russische Mathematiker Andrei Markow im Jahr 1913. Er fragte nicht mehr nur, wie häufig ein Buchstabe ist, sondern wie wahrscheinlich er ist, wenn man den vorigen kennt. Anhand von Puschkins Versroman "Eugen Onegin" zählte er, wie oft auf einen Vokal ein Konsonant folgt und umgekehrt. Das ist der eigentliche Sprung. Er berechnete eine Wahrscheinlichkeit, mit der ein Buchstabe auf einen anderen folgt.

Den zweiten Schritt machte der Ingenieur Claude Shannon im Jahr 1948. Er übertrug Markows Idee von Buchstaben auf Wörter und zeigte etwas Verblüffendes. Wählt man Wörter nur nach ihrer Gesamthäufigkeit, ohne auf das Vorhergehende zu achten, kommt Kauderwelsch heraus. Bezieht man dagegen die zuletzt gesehenen Wörter mit ein, wird das Ergebnis umso sinnvoller, je mehr Zusammenhang man berücksichtigt. Damit war das Prinzip des modernen Sprachmodells im Kern beschrieben.

Geändert hat sich seither nicht das Prinzip, sondern der Maßstab. Heute zählt eine Maschine die Muster in gewaltigen Mengen Text, praktisch dem halben Internet. Und sie berücksichtigt einen langen Zusammenhang statt ein paar Wörter. Das Ergebnis ist beeindruckend, aber die Grundidee ist dieselbe geblieben, von Al-Kindi über Markow bis Shannon. Es ist Zählen und Vorhersagen, in unvorstellbarem Umfang.

Was wollte OpenAI eigentlich erreichen?

Es ist wie bei Columbus. Er wollte nach Indien und landete in der Karibik. OpenAI wollte eine allgemeine künstliche Intelligenz bauen und landete bei ChatGPT.

OpenAI wurde im Dezember 2015 als Non-Profit-Forschungslabor gegründet. Das offizielle Ziel war ausdrücklich nicht-kommerziell und reichte weit über einen Chatbot hinaus: Allgemeine künstliche Intelligenz, AGI, entwickeln, die der gesamten Menschheit zugutekommt. Die Charta von OpenAI definiert AGI als "hochautonome Systeme, die Menschen in den meisten wirtschaftlich wertvollen Tätigkeiten übertreffen".

In dieser frühen Phase war Sprache nur einer von mehreren parallelen Forschungspfaden. Das prestigeträchtigste Projekt von 2017 bis 2019 war eine künstliche Intelligenz, die das Computerspiel Dota 2 gegen Weltmeister gewinnen sollte. Daneben gab es Forschung an Roboterhänden, an Reinforcement Learning, an Werkzeugen wie OpenAI Gym. GPT-1, im Juni 2018 als Forschungsarbeit veröffentlicht, war eine einzelne Abhandlung aus dem Sprach-Team. Kein Produkt, kein Geschäftsmodell, nicht einmal das Hauptthema des Hauses.

Zwischen GPT-1 und ChatGPT lagen vier Jahre Entwicklung. Aus technischer Sicht wurden die Modelle auf immer mehr Text trainiert. 2020 waren es bei GPT-3 schon Hunderte Milliarden Wörter, praktisch alles, was sich im Internet greifen ließ. GPT-3 war dennoch nur über eine Programmierschnittstelle für Entwickler zugänglich. Aus finanzieller Sicht kam OpenAI mit jeder neuen Größenstufe näher an seine Grenzen. Die Rechenleistung für immer größere Modelle wurde unbezahlbar. Im März 2019 gründete OpenAI deshalb eine Tochtergesellschaft mit gedeckeltem Profit, OpenAI LP. Wenige Monate später, im Juli 2019, investierte Microsoft eine Milliarde Dollar und wurde exklusiver Cloud-Partner.

Erst ab 2019 konnte OpenAI also überhaupt kommerziell denken. Und selbst dann war der Plan keine Endkundenanwendung, sondern eine Programmierschnittstelle für Entwickler. Der entscheidende Schritt zu ChatGPT war ein Forschungsergebnis vom Januar 2022 namens InstructGPT. Dabei brachten Menschen GPT-3 durch gezieltes Feedback bei, Anweisungen zu folgen, statt nur Text zu vervollständigen. Das Verfahren heißt Reinforcement Learning from Human Feedback, kurz RLHF. Das bemerkenswerte Ergebnis: Eine InstructGPT-Variante, die mehr als hundertmal kleiner war als das ursprüngliche GPT-3, wurde von Menschen trotzdem bevorzugt. Größe allein genügte also nicht. Die Ausrichtung an menschlichen Präferenzen war das Zünglein an der Waage.

ChatGPT, mit dem im November 2022 eine Million Menschen sprachen, war im Kern die Kombination aus dem RLHF-Verfahren, GPT-3.5 und einer Chat-Oberfläche. Ein Sprachmodell, das gelernt hat, wie hilfreiche Antworten klingen, weil Entwickler ihm genau das durch Belohnung beigebracht haben.

Aber ist ChatGPT damit auf dem Weg zur AGI?

OpenAI hat AGI als Ziel ausgerufen. Die Maschine fühlt sich an wie ein denkendes Gegenüber. Der nahe liegende Schluss ist, das sei jetzt diese viel beschworene allgemeine KI. Genau diese Verwechslung ist das eigentliche Problem.

Diese Annahme ist falsch. Was wir heute haben, auch bei den fortgeschrittensten Modellen, ist eine spezialisierte KI für Sprache. Ein System, das Sprache erstaunlich gut imitiert, aber nicht versteht, nichts will, nichts plant und sich seiner selbst nicht bewusst ist. Außerhalb der Sprache scheitert es kläglich an Aufgaben, die ein Kind löst. Fragen Sie ein Sprachmodell, wie viele R im Wort "strawberries" stecken. Es wird Ihnen eine plausibel klingende Zahl nennen, oft die falsche. Der Grund liegt in der Bauart: Das Modell sieht das Wort als ein Zeichen oder zwei, sogenannte Token, die es nie buchstabenweise gelernt hat. Sie müssen mir das nicht aufs Wort glauben, probieren Sie es selbst auf dem Tokenizer von OpenAI aus: https://platform.openai.com/tokenizer

Allgemeine künstliche Intelligenz wäre etwas grundlegend anderes, ein System, das wie ein Mensch flexibel auf neue Probleme reagiert, lernt, plant und Verantwortung trägt. Davon sind wir nach Einschätzung der Fachwelt weit entfernt, und es ist nicht sicher, dass wir auf diesem Weg überhaupt dorthin kommen.

Yann LeCun, KI-Chefwissenschaftler bei Meta und einer der Pioniere des Feldes, warnt seit Jahren vor genau dieser Verwechslung. Er argumentiert, dass große Sprachmodelle architekturbedingt nicht zu AGI führen werden. Sein Kernpunkt: Ein Modell, das nur das nächste Wort vorhersagt, hat kein Modell der Welt, keine Möglichkeit zu planen und keine Fähigkeit, kausal über das Geschehene zu reflektieren. Diese Fähigkeiten lassen sich nicht durch mehr Daten oder mehr Parameter herbeibringen, sie fehlen strukturell.

Zurück zum Staubsauger

Damit lässt sich die Magie auflösen, und zwar genau in die Klarheit, mit der wir den Staubsaugerroboter einordnen. Wir wissen, was er kann, einen Boden absaugen, sich um Hindernisse herum bewegen, eine Karte vom Wohnzimmer anlegen. Wir wissen, was er nicht kann, Kaffee kochen oder über das Wetter plaudern. Niemand würde von ihm verlangen, dass er die Bauleitung übernimmt.

Bei der KI fehlt diese Klarheit oft, weil ihre Stärke unsere Vorstellung von "verstehen" so präzise trifft. Ein Sprachmodell kann erstaunlich gut Texte erzeugen, übersetzen, zusammenfassen, beantworten. Es kann nicht die Welt einordnen, nicht prüfen, ob etwas wahr ist, nicht für seine Aussagen geradestehen. Es schätzt das wahrscheinliche nächste Wort, und es hat dabei nicht die geringste Ahnung, ob das, was es sagt, stimmt.

Wer das einmal verinnerlicht hat, sieht die aktuelle KI als das, was sie ist: ein Werkzeug mit klaren Stärken und Grenzen. Das macht sie nicht weniger nützlich. Niemand hört auf, einen Staubsaugerroboter zu benutzen, weil er versteht, wie dieser funktioniert. Er benutzt ihn besser. Genau das ist das Ziel. KI gehört dort eingesetzt, wo ihre Fähigkeiten zur Aufgabe passen. Das sind mehr Stellen, als Skeptiker vermuten, und weniger, als Enthusiasten versprechen. Die Kunst liegt darin, die richtigen zu finden.

Häufige Fragen

Wie funktioniert ChatGPT?

ChatGPT ist ein Sprachmodell, das aus riesigen Mengen Text gelernt hat, welche Wörter typischerweise aufeinanderfolgen. Bei jeder Antwort schätzt es Wort für Wort das wahrscheinliche nächste Wort. Es versteht nicht, was es sagt, sondern erzeugt plausibel klingende Fortsetzungen.

Ist ChatGPT eine allgemeine künstliche Intelligenz (AGI)?

Nein. ChatGPT ist eine spezialisierte KI ausschließlich für Sprache. Eine allgemeine künstliche Intelligenz wäre ein System, das wie ein Mensch flexibel auf neue Probleme reagiert, plant und Verantwortung trägt. Davon sind heutige Sprachmodelle weit entfernt.

Warum gibt KI manchmal falsche Antworten?

Sprachmodelle schätzen wahrscheinliche Wortfolgen, sie prüfen nicht, ob eine Aussage stimmt. Wenn die wahrscheinlichste Antwort sachlich falsch ist, geben sie diese trotzdem aus. Dieses Verhalten wird Halluzination genannt und folgt direkt aus der Funktionsweise.

Was bedeutet RLHF bei Sprachmodellen?

RLHF steht für Reinforcement Learning from Human Feedback. Menschen bewerten Antworten eines Sprachmodells nach Qualität, und das Modell wird auf diese Präferenzen ausgerichtet. Dieses Verfahren machte aus GPT-3 die hilfreich antwortende Variante, die als ChatGPT bekannt wurde.

Was ist ein Token bei Sprachmodellen?

Token sind die kleinsten Einheiten, mit denen ein Sprachmodell arbeitet. Ein Wort kann aus einem oder mehreren Token bestehen. Das Modell sieht die Buchstaben innerhalb eines Tokens nicht, was zu kuriosen Fehlern führt, etwa beim Zählen von Buchstaben in einem Wort.

← Zurück zur Übersicht