Midjourney - Ein Bild sagt mehr als ein paar Worte

Kommen wir zum heimlichen Star dieses Unterfangens: Midjourney

Eine künstliche Intelligenz, die Text in Bilder verwandelt. Wie zur Lava geht sowas?

Das Prinzip ist ähnlich wie bei den Text-K.I.s. Ein neuronales Netzwerk, dem hunderte Millionen Trainingsdaten vorgelegt werden. In diesem Fall Bilder, verbunden mit Textbeschreibungen. Der Algorithmus lernt anhand dieser Trainingsdaten, Muster zu erkennen und selbst zu produzieren.

Das können sie unfassbar gut: Muster erkennen.

Hast Du, werter ZuLeser, schonmal Wolkenschau gespielt? In die Wolken geblickt und dort Formen erkannt? Einen Wolkenhasen, oder Drachen, oder eine Maus vielleicht.

Die Bild-K.I.s machen das gleiche. Ihre Wolken sind ein willkürliches, zufällig generierten Rauschen. Sie erkennt in diesem Chaos jene Muster, die zu dem Text passen, und arbeitet sie über dutzende Schritte Stück für Stück heraus.

Die Vorgänger-Version von Midjourney (V3) erlaubt es, diesen Prozess im Video festzuhalten. Hier ein paar Beispiele:

A dragon made of clouds


blond girl in a giant bed, soft and clean, streaked with sunlight, LA Noir

Die modernen Bild-K.I.s, wie Midjourney V4, erzeugen so unfassbar detaillierte Bilder in jeder erdenklichen Form. Von fotorealistisch bis handgemalt, Picasso bis Kindergekritzel, imitieren alte und moderne Meister, kreieren abstrakte Kunst, Collagen, Pop-Art… was immer sie in ihren Trainingsdaten gesehen haben, können sie nachahmen, miteinander kombinieren und verschmelzen.

Sind sie perfekt? Mitnichten. Midjourney zum Bleistift scheint Hände mit Inbrunst zu hassen. Zu viele Finger. Oder zu wenig. Und wie hängen die zusammen? Das Ergebnis ist da teils purer Horror:

A digital illustration of two hands clasping a red, braided cord that is knotted in the middle. The hands are surrounded by a soft glow, and the background is dark and slightly blurred, creating a sense of intimacy and focus.

Überhaupt, Extremitäten bereiten der K.I. Schwierigkeiten. Menschliche Interaktion wird da oft knifflig. Gern verschluckt sie auch mal ein Bein oder einen Arm.

Und wenn zwei ähnliche Motive auf einem Bild zusammenkommen, vermischt es gerne deren Merkmale. Wie hier: Bleistiftzeichnung einer Maus, die auf einem Wolf reitet:

Pencil drawing of a mouse riding a wolf.

Jenseits dieser Unzulänglichkeiten jedoch sind sie jetzt schon so gut, dass es für viele unfassbar erscheint. Sie können nicht glauben, dass eine Maschine von sich aus so kreativ sein kann.

Was zu einigen Mythen und Missverständnissen führt, denen ich regelmäßig begegne. Und denen das nächste Kapitel gewidmet ist.

Zurück
Zurück

Vom Gedicht zum Bild in 10 Minuten (oder länger)

Weiter
Weiter

F.A.Q. - Falsche Annahmen und Quatsch