DALL-E 2 und Midjourney
Der Hype um sogenannte generative Modelle ist groß. Im visuellen Bereich ganz vorne mit dabei sind DALL-E 2 und Midjourney. Beides sind Text-zu-Bild-Modelle, die aus Text, der vom User eingegeben wird, Bilder erstellen. Und diese Bilder sind mittlerweile wirklich sehr beeindruckend; so beeindruckend, dass es bereits einige Kontroversen gab. In diesem Post erkläre ich grob, wie solche Modelle funktionieren, vergleiche die beiden Programme und zeige ein paar Beispielbilder.
Was sind DALL-E 2 und Midjourney?
Midjourney und DALL-E 2 sind KI-Modelle, die Text-zu-Bild-Generierung (engl. text-to-image, oder text2image) ermöglichen. DALL-E 2 wurde von OpenAI entwickelt, den Machern von ChatGPT. Es baut auf der ersten Version von DALL-E auf und hat einige Verbesserungen gebracht, z.B. eine passendere Bildgenerierung und höhere Auflösung. Midjourney ist das Modell, das von Midjourney Inc. erstellt wurde und welches aktuell in der Verison 5.1 existiert.
Unterschiede in der Nutzung
- DALL-E 2: Du kannst DALL-E 2 über die OpenAI-Website nutzen. Dort gibst du deinen Text in ein Textfeld ein und drückst Enter bzw. auf den Generate-Button. Nach kurzer Zeit werden dir vier generierte Bilder angezeigt. Du kannst DALL-E 2 übrigens auch per API nutzen. Dazu brauchst du einen API-Key und kannst dann Bilder z.B. mit Python-Code generieren.
- Midjourney: Um Midjourney zu nutzen, brauchst du Discord. Über https://www.midjourney.com/account kannst du dann ein Abo wählen. Anschließend kannst du in einem Midjourney-Channel via
/imagine <PROMPT>
vier Bilder generieren lassen. Es ist auch möglich, den Midjourney Bot in einen eigenen Channel zu holen, dann kannst du auch dort Bilder generieren.
Die beiden Programme sind nicht umsonst; es gibt aber anfangs eine kurze Testphase (limitiert auf eine bestimmte Anzahl von Bildern). Anschließend musst du bei OpenAI z.B. Credits kaufen oder bei Midjourney ein Abo wählen.
Wie funktionieren DALL-E 2 und Midjourney?
DALL-E 2 und Midjourney sind generative Modelle und diese basieren auf Deep Learning. Allerdings ist Midjourney 5.1, soweit ich weiß, closed-source und somit ist die genaue Architektur nicht bekannt. Wahrscheinlich basieren aber sowohl DALL-E 2 als auch Midjourney auf modifizierte Transformer-Architekturen. Die grundlegende Architektur von Transformer-Modellen besteht aus mehreren Schichten, die aus Attention-Mechanismen und Feed-Forward-Netzwerken bestehen. Der Kern liegt im Konzept von Self-Attention: Dadurch ist es möglich, in der Eingabesequenz auf unterschiedliche Positionen zu achten und Informationen präziser zu extrahieren.
Die Architektur von DALL-E 2 und Midjourney ist darauf spezialisiert, Bilder aus Texteingaben zu generieren. Dabei wird der Text in semantische Vektoren umgewandelt, die dann als Inputs für die Bildgenerierung verwendet werden. Das Modell lernt während des Trainings die Beziehung zwischen Text und Bildern und kann deshalb neue Bilder basierend auf Texteingaben generieren.
Trainingsprozess
Um qualitativ hochwertige Bilder zu generieren, müssen die Modelle mit sehr, sehr vielen Daten trainiert werden. Und diese müssen Text- und Bildinformationen enthalten, damit die Übersetzung von Text zu Bild gelernt werden kann. Zudem gibt es eine Technik namens Data Augmentation. Dabei werden Trainingsdaten vermehrt, indem z.B. Bilder gedreht werden oder anders manipuliert werden. So könnte man jedes Bild in schwarz-weiß umwandeln und dem zugehörigen Text „black/white“ oder „BW“ hinzufügen, und schon hat man neue und sinnvolle Trainingsdaten.
Beispiele für DALL-E 2 und Midjourney
In den Beispielen ist DALL-E 2 auf der linken und Midjourney auf der rechten Seite.
Fotorealistische Bilder
Fangen wir mit folgendem Text an „olive trees in tuscany on a sunny day with blue sky“.
Nun möchten wir Bilder mit Menschen generieren: „young man and old woman sitting on a bench in a small town, evening light“.
Ein bisschen mehr Action? -> „exploding oil barrels on a freight train, cinematic“.
Künstlerische Bilder
Nun mal etwas im Stil von Monet: „balloons above the eiffel tower, monet style“.
Weitere Stile
Ein bisschen Cyberpunk, bitte: „cinematic picture of high-tech cyberpunk world, dark blue grey colors“
Ein Retro-Foto: „children on bicycles riding down the street in bangkok, retro style“.
Logo-Design
Versuchen wir mal, ein Logo mit den Modellen zu generieren: „logo with text ‚Max Corp 9000‘, digital company, neon green on black“
Fazit
Es ist schon beeindruckend, was diese Programme leisten und wie realistisch die Bilder werden. Gerade wenn es in den kreativen Bereich geht und Fotorealismus nicht gewünscht ist, dann bekommt man innerhalb von Sekunden Bilder generiert, die man sonst vielleicht auch in professioneller Medienproduktion gefunden hätte. Im Vergleich zwischen DALL-E 2 und Midjourney gewinnt meiner Meinung nach Midjourney – und das eindeutig. Ich bin gespannt auf weitere Versionen, die es dann auch schaffen, Schrift richtig darzustellen. Ich kann mir vorstellen, dass dies einen ganz neuen Ansatz erfordert und ich bin mir sicher, dass da aktiv dran gearbeitet wird. Übrigens: Meine bisherigen Titelbilder wurden alle mit Midjourney erzeugt.
Wenn du ein Wunschthema hast oder mir Feedback geben willst, schreibe gerne einen Kommentar oder schicke eine Mail an mail@thorejohannsen.de.