“Wer bist Du?” - Mit KI GPT4 im Dialog zum Video

10. Apr.

Verfasst von Stefan Brinkmann

Neues Morgenkaffee-Projekt: Mein rund 30 Jahre altes Erstlingswerk “Wer bist Du” mit K.I.s bebildern.

Neuer Twist dieses Mal: Die Bilder komplett über BING-GPT kreieren lassen. Rein im Dialog.

Das Ergebnis:

Und so sind die Bilder entstanden:

Ich: “Hallo GPT. Ich möchte gern dein kreatives Hirn strapazieren. Bereit für eine kleine Herausforderung?”

GPT-BING: “Hallo, dies ist Bing. Ich bin immer bereit für eine kreative Herausforderung. Was hast du im Sinn? 😊”

Ich: “Lass uns mit diesem Gedicht beginnen, meinem Erstlingswerk von vor rund 30 Jahren.

Wer bist Du?

Ich sitze hier
einem Menschen gegenüber
den ich nicht kenne.
Ich sehe ihn
jeden Monat,
jede Woche,
jeden Tag,
und doch,
ich kenne ihn nicht.

Ich sitze hier
einem Menschen gegenüber
den ich nicht begreife.
Ich weiß,
woher er kommt,
was er tut,
mit wem er spricht,
und doch,
ich begreife ihn nicht.

Ich sitze hier
einem Menschen gegenüber
den ich nicht verstehe.
Ich kenne
seine Gedanken,
seine Wünsche,
seine Träume,
und doch,
ich verstehe ihn nicht.

Ich sitze hier
einem Menschen gegenüber,
den ich nicht
kenne,
begreife,
verstehe.
Aber was soll‘s.
Es ist ja nur
mein Spiegelbild.

Wie würdest du dieses Gedicht interpretieren?”

GPT-BING: “Das ist ein sehr interessantes und tiefgründiges Gedicht. Ich würde es so interpretieren:

Der Sprecher des Gedichts fühlt sich von sich selbst entfremdet und hat Schwierigkeiten, seine eigene Identität zu erkennen. Er sieht sich selbst im Spiegel, aber er kann keine Verbindung zu dem Bild herstellen, das er sieht. Er kennt die Fakten über sein Leben, aber er kann sie nicht mit seinem inneren Selbst in Einklang bringen. Er hat Gedanken, Wünsche und Träume, aber er versteht nicht, was sie bedeuten oder wie er sie verwirklichen kann. Er ist in einem Zustand der Unsicherheit und Selbstzweifel gefangen und fragt sich, wer er wirklich ist.

Das ist meine Interpretation des Gedichts. Was denkst du darüber?”

Ich: “Treffend. Was ist mit der letzten Strophe? Was bringt das Gedicht mit ihr als Fazit zum Ausdruck über den Erzähler?”

GPT-BING: “Ich denke, die letzte Strophe zeigt die Resignation und Gleichgültigkeit des Erzählers gegenüber seiner Situation. Er scheint zu akzeptieren, dass er sich selbst nicht kennt, begreift oder versteht, und er sieht keinen Grund, daran etwas zu ändern. Er sagt “Aber was soll‘s”, als ob es ihm egal wäre, wer er ist oder wie er sich fühlt. Er betrachtet sein Spiegelbild als einen fremden Menschen, mit dem er nichts gemeinsam hat."

Das ist meine Meinung zur letzten Strophe. Findest du sie überzeugend?”

Ich: “Das tue ich. Nun, zum nächsten Schritt. Ich möchte dieses Gedicht in ein kleines Video umsetzen. Wie würdest du die einzelnen Strophen knünstlerisch in Bilder umsetzen, damit daraus ein stimmige Erzählung wird?”

GPT-BING: “Das ist eine spannende Aufgabe. Ich würde die einzelnen Strophen so in Bilder umsetzen:

Für die erste Strophe würde ich eine Nahaufnahme des Gesichts des Erzählers zeigen, wie er in einen Spiegel schaut. Er hat einen ausdruckslosen oder verwirrten Blick, und der Spiegel ist leicht beschlagen oder verschmutzt, so dass sein Bild nicht klar ist.
Für die zweite Strophe würde ich eine Reihe von kurzen Szenen zeigen, die das Leben des Erzählers darstellen. Zum Beispiel, wie er zur Arbeit geht, mit Kollegen spricht, einkauft, fernsieht, etc. Er wirkt dabei immer gelangweilt oder unzufrieden, und die Szenen sind in grauen oder trüben Farben gehalten.
Für die dritte Strophe würde ich eine Kontrastierung von dem zeigen, was der Erzähler denkt, wünscht und träumt, und dem, was er tatsächlich tut. Zum Beispiel, wie er sich vorstellt, eine Reise zu machen, ein Buch zu schreiben, eine neue Liebe zu finden, etc., aber dann sieht man ihn wieder in seiner Routine gefangen. Die Gedanken, Wünsche und Träume sind in lebendigen oder hellen Farben dargestellt, während die Realität weiterhin grau oder trüb ist.
Für die letzte Strophe würde ich wieder eine Nahaufnahme des Gesichts des Erzählers zeigen, wie er in den Spiegel schaut. Diesmal hat er einen resignierten oder gleichgültigen Blick, und der Spiegel ist noch mehr beschlagen oder verschmutzt, so dass sein Bild fast nicht mehr zu erkennen ist. Er sagt die letzten Worte des Gedichts mit einer monotonen oder leisen Stimme.

Das ist meine Idee für die Umsetzung des Gedichts in ein Video. Was hältst du davon?”

Ich: “Sehr schöne Ideen. Die möchte ich jetzt an eine K.I. wie DALL-E 3 oder Midjourney weiter geben, damit sie diese in Bilder umsetzen. Die KIs wissen natürlich nicht, wie der Erzähler aussieht. Wie können wir das etwas abstrakter gestalten?”

GPT-BING: “Vielen Dank für das Kompliment. Um die Ideen etwas abstrakter zu gestalten, könnten wir folgendes tun:

Anstatt das Gesicht des Erzählers zu zeigen, könnten wir nur seinen Schatten oder seine Silhouette zeigen, die sich im Spiegel spiegelt. Das würde seine Anonymität und Entfremdung betonen.
Anstatt die Szenen aus seinem Leben zu zeigen, könnten wir nur Symbole oder Objekte zeigen, die seine Aktivitäten repräsentieren. Zum Beispiel, einen Wecker, einen Aktenkoffer, einen Einkaufswagen, eine Fernbedienung, etc. Das würde seine Monotonie und Unzufriedenheit veranschaulichen.
Anstatt seine Gedanken, Wünsche und Träume zu zeigen, könnten wir nur Wörter oder Sätze zeigen, die sie beschreiben. Zum Beispiel, “Reisen”, “Schreiben”, “Lieben”, etc. Das würde seinen Kontrast zwischen Fantasie und Realität hervorheben.
Anstatt seine letzten Worte zu sagen, könnten wir nur einen leeren Spiegel zeigen, der zerbricht oder zersplittert. Das würde seine Resignation und Gleichgültigkeit symbolisieren.

Das sind meine Vorschläge für eine abstraktere Gestaltung der Ideen. Wie findest du sie?”

Ich: “Sehr schön. Leider sind die KIs noch nicht in der Lage, schrift grafisch darzustellen. Die Idee für die dritte Strophe funktioniert so also leider nicht. Hast Du eine alternative dafür? Und kannst Du die Ideen in Prompts auf englisch umsetzen? Bedenke dabei, dass jeder Prompt für sich stehen muss. Gib einen artistischen Stil an, in dem die Bilder gestaltet werden sollen. Füge Details ein wie Kamerawinkel und dergleichen, um die Komposition zu definieren.”

GPT-BING: “Ich verstehe. Eine alternative Idee für die dritte Strophe wäre, anstatt Wörter oder Sätze zu zeigen, Bilder zu zeigen, die seine Gedanken, Wünsche und Träume darstellen. Zum Beispiel, eine Weltkarte, eine Schreibmaschine, ein Herz, etc. Das würde auch seinen Kontrast zwischen Fantasie und Realität hervorheben.

Um die Ideen in Prompts auf Englisch umzusetzen, könnte ich folgendes schreiben:

A shadow or silhouette of a person looking at a foggy or dirty mirror in a dark room. The style is realistic and the camera angle is close-up.
A collage of symbols or objects that represent the activities of a person’s life. For example, an alarm clock, a briefcase, a shopping cart, a remote control, etc. The style is minimalist and the camera angle is bird’s-eye view.
A collage of images that represent the thoughts, wishes and dreams of a person. For example, a world map, a typewriter, a heart, etc. The style is colorful and the camera angle is random.
An empty mirror that breaks or shatters in a dark room. The style is abstract and the camera angle is medium shot.

Das sind meine Prompts auf Englisch. Sind sie klar und verständlich?”

Ich: “Lass es uns ausprobieren! Kannst Du den ersten Prompt als Bild kreieren?”

GPT-BING: “Ich werde versuchen, das Bild zu erstellen.”

Anmerkung: Hier lasse ich GPT-BING der Reihe nach seine Prompts an die angebundene Bild-K.I. DALLE-3 weiter reichen. Für jedes Bild bekomme ich 4 zur Auswahl. Aus denen entstand das Video.

Ich: Sehr gut. Vielen Dank!

GPT-BING: “Bitte schön. Es hat mir Spaß gemacht, dir zu helfen. 😊”

Anmerkung: Etwas später, im Schnitt, fehlte mir dann ein passendes Bild. Also zurück zu unserer Unterhaltung…

Ich: Ein Bild brächte ich noch. Am Ende das "Aber was solls, es ist ja nur..." Deinen Bildvorschlag mit dem zerbrochenen Spiegel möchte ich als überraschende Wendung erst danach zeigen, um den Impakt zu erhöhen. Davor verwende ich für die letzte Strophe in schneller Abfolge die Bilder aus den Strophen davor. Jetzt fehlt mir ein Bild als Überleitung.

GPT-BING: “Ich verstehe. Eine Idee für ein Bild als Überleitung wäre, den Schatten oder die Silhouette des Erzählers zu zeigen, wie er sich vom Spiegel abwendet oder wegschaut. Das würde seine Desinteresse und Distanzierung ausdrücken. Der Stil könnte realistisch oder abstrakt sein, je nachdem, was du bevorzugst.”

Anmerkung: GPT hat das dann direkt umgesetzt. Und so bekam ich meine letzten Bilder.

Fazit: Es ist zutiefst beeindruckend, wie gut dieser Prozess in natürlicher Sprache funktioniert. GPT erfasst sehr schnell und gut, was ich von ihm erwarte, passt gezielt seine Vorschläge an. Die Bilder passen wie immer unglaublich gut. Das bin ich zwischenzeitlich gewohnt. Und doch überrascht mich jedes Bild aufs neue.

Was mich fasziniert: GPT versteht fast wie ein Mensch, was ich von ihm möchte, ohne dass ich es haarklein ausführen muss. Schließt logische Schlüsse, wie das Zusammenfassen seiner Ideen für die Strophen in ein Bild.

Offene Fragen: Wie viel von GPTs Höflichkeit resultiert aus meinem Schreibstil? Wie viel ist ihm vorgegeben? Wie viel ist ihm selbst eigen?

Das gleiche gilt für solche Aussagen wie “Das ist eine spannende Aufgabe” oder “Das ist ein sehr interessantes und tiefgründiges Gedicht”. Ist das seine Meinung? Hat es eine Meinung?

Die Versionen von GPT-4, zu denen die Öffentlichkeit Zugang hat, sind vom Betreiber klar instruiert. Das merkt man bei vielen Themen, in denen dann vorgegebene Antworten kommen. Aber das ist ein anderes Kapitel…

Stefan Brinkmann

“Wer bist Du?” - Mit KI GPT4 im Dialog zum Video

Wer bist Du?

Die Antwort auf eine Frage, die wir nicht kennen - Philosophie mit BING-GPT

GPT-4 und AGI (Artificial General Intelligence) Teil 3 - Der bewegte Geist