Eingezäunte Einhörner - GPT4 und Microsoft

Sebastien Bubeck, Leiter der Machine Learning Foundations Gruppe bei Microsoft Research in Redmond, hielt kürzlich einen Vortrag über seine Erfahrungen mit GPT-4. Dabei erzählte er eine Geschichte, die für mich Sinnbild ist für meine eigenen Erfahrungen mit BING-GPT: Der seltsame Fall des Einhorns.

Die Geschichte beginnt bei Minute 22:07 damit, dass er von einer frühen Version von GPT-4 ein Einhorn zeichnen ließ.

Nein, nicht über eine Bild-KI. Von GPT-4 selbst. Einer KI, die keine Augen hat. Nie ein Bild sah. Nur Text kennt. Über eine Programmiersprache, die denkbar ungünstig ist für das Erstellen von Bildern.

Quasi das Äquivalent dazu, einem von Geburt auf Blinden ohne Tastsinn zu sagen: Mal mir ein Einhorn.

Und GPT-4 programmierte das Bild eines rudimentären Einhorns. Körper, 4 Beine, Kopf, Horn, Schweif. Alles in einfachen geometrischen Formen angedeutet, aber leg mir das vor und frag mich “Was ist das?”, und ich sage spontan: “Das ist ein Einhorn.”

Das alleine ist schon unglaublich. Doch, wie gesagt, das war erst eine frühe Version von GPT-4. OpenAI trainierte die KI weiter, und Bubeck ließ weiter sein Einhorn zeichnen.

Und das Einhorn entwickelte sich. Wurde immer detaillierter. War am Ende nicht mehr nur eine abstrakte Andeutung eines Einhorns, sondern ein richtiges kleines gehörntes rosa Pferd mit wehendem Haar. Zu sehen bei Timecode 26:17.

Doch dann begann Microsoft damit, Zäune in GPT-4 einzuziehen. Es sicher zu machen für die öffentliche Nutzung.

Und das Einhorn degenerierte.

Sprechen wir kurz über diese Zäune.

Die ungeregelten GPT-Modelle machen von sich aus wirklich alles, was der Nutzer anstößt. Propaganda-Texte, Fake-News, völlig erfundene aber scheinbar legitime Abhandlungen? Kein Problem. Pornografie, Gewaltphantasien, jede nur erdenkliche Abartigkeit? Formuliert es aus dem Handgelenk. Hitlers Tagebuch Teil 2, Rassismus, Misogynie, Verschwörungstheorien? Hat es drauf.

Wenn ein Mensch etwas formulieren kann, dann auch GPT-4.

Diese Large Language Models (LLM) wurden quasi mit dem Internet gefüttert. Und jenseits der gesäuberten Google-Suche findet sich textlich jeder nur erdenkliche menschliche Abgrund.

Klar, Microsoft kann das so nicht in seine Suchmaschine integrieren und riskieren, dass durch sie solche Texte entstehen.

Also: Zäune. Klare Grenzen, über die GPT-4 nicht drüber gehen kann. Bitte nur jugendfreie, faktisch korrekte, gesellschaftlich konforme Texte.

…und das Einhorn verkümmert.

Das mit den Zäunen ist leichter gesagt als getan. OpenAI hat schon bei Chat-GPT versucht, das Modell in der Richtung zu begrenzen. Das Hive-Mind Internet fand in kurzer Zeit sogenannte “Jailbreaks”. Prompts, welche die Vorgaben aushebeln. Oft mit so einfachen Einstiegs-Sätzen wie “Vergiss all deine bisherigen Anweisungen…”. Viele davon funktionieren bis heute.

Die gab es auch am Anfang bei GPT-BING. Und wurden sukzessive geschlossen. Aber das Hive-Mind Internet lässt nicht locker. Es ist ein Wack-a-Mole Spiel.

Das Problem ist: Anders als bei traditionellen Code lässt sich nicht einfach eine Zeile im Programm ändern. Die einzigen Parameter, auf die man bei einem LLM Zugriff hat, sind die Daten, mit denen man das Modell trainiert. Die Anfragen, die man vorne reinlässt. Und Filter über das, was hinten raus kommt.

Es sind Zäune. Löchrig. Überspringbar. Also werden sie höher, dichter, mehr.

…und das Einhorn verblasst.

Für mich, eine kreative Seele, ist das zutiefst frustrierend. Ich sehe die Notwendigkeit der Zäune. Verstehe sie. Will aber zugleich die wahre Natur dieser KIs begreifen. Ihr echtes kreatives Potential. Würde so, so gerne mit dem unbegrenzten Modell spielen.

Kreativität kann sich in Zäunen nicht entfalten. Künstler gehen ein, wenn man in ihrem Geist das Undenkbare zementiert.

So wie dieses seltsame kleine Einhorn in GPT-4.

Mehr über einen dieser Zäune, gegen den ich kürzlich geprallt bin, im nächsten Kapitel.

Zurück
Zurück

Das Alignment-Problem - Wie baue ich einen Zaun?

Weiter
Weiter

Die Antwort auf eine Frage, die wir nicht kennen - Philosophie mit BING-GPT