Die neue künstliche Intelligenz von OpenAI verbreitete zuletzt großes Staunen. Mit DALL E 2 ist es nun möglich, Bilder aus geschriebenem Text entstehen zu lassen und das in guter Auflösung.
Mit DALL E 1 zog das Unternehmen bereits 2021 große Aufmerksamkeit auf sich. Auch wenn die KI, die Bilder durch Texteingaben erstellte nur von ausgewählten Forschern genutzt werden konnte und für die Öffentlichkeit Unzugänglich blieb, überraschte sie schon damals mit ihren Fähigkeiten. Die aktuelle Version DALL E 2 setzt da aber noch eine Schippe drauf und lässt alle bisher bekannten Künstlichen Intelligenzen zum generieren von Bildern im Schatten stehen.
Der Beginn von DALL E 2
DALL E 2 erschien im April 2022 und ist anders wie sein Vorgänger auch für die Öffentlichkeit über eine Warteliste zugänglich. Eine Woche nach Veröffentlichung standen bereits 100.000 auf der Warteliste, einige Monate später schon über eine Millionen. Bei der Bilderstellung ist DALL E 2 in der kreativen und visuellen Qualität um längen besser als sein Vorgänger. Mit der soliden Auflösung 1024×1024 und mehrsprachiger Textverarbeitung überzeugt die KI von fotorealistischen Portraits bis zu simulierten 3D-Renderings.
Das Prinzip der Bildgeneration
Das Prinzip der Bildgeneration bei DALL·E 2 läuft vereinfacht folgendermaßen ab:
- Der Prompt läuft über den Text Encoder, der ihn in den Repräsentationsraum projiziert. Dort ordnet CLIP die textuelle und die visuelle Ebene paarweise zu. Das neuronale Netz ist darauf trainiert festzustellen, inwieweit eine Textbeschreibung zu einem Bild passt. Der Schritt steht für das Semantisieren der Textebene in Bezug auf das Visuelle.
- Es entsteht ein sogenanntes Prior: kein fertiges Bild, sondern lediglich eine Bildrepräsentation. Hier kommt mit GLIDE ein sogenanntes Diffusionsmodell von OpenAI zum Einsatz. Dabei wird ein künstliches neuronales Netz mit Fotos so lange immer mehr mit Rauschen belegt, bis nichts mehr erkennbar ist. Danach wird der Vorgang umgekehrt, sodass das System aus dem Rauschen fotorealistische Bilder nach Vorgaben schafft.
- Der Prior mit der Text-Bild-Semantik generiert über Diffusionsumkehrung eine Reihe von Bildern, die das System wiederum mit CLIP semantisch sortiert und die die aus seiner Sicht besten als Ergebnis anzeigt.
Der Prozess dauert etwa 20 Sekunden und lässt zwischen sechs und zehn Bildern entstehen um eine Auswahl an Variationen bereitzustellen.
Die KI kann nicht nur neue Bilder nach gewünschten Stilrichtungen entstehen lassen, sondern auch vorhandene Retuschieren.
Schreibe einen Kommentar