Mogao: Der Meister der Bilder und Texte

Stell dir vor, eine Maschine könnte Bilder und Texte gleichzeitig erstellen. Forschende haben genau das entwickelt.

Hast du schon mal von Mogao gehört? Das ist ein super intelligentes System, das sowohl Bilder als auch Texte erstellen kann. Stell dir vor, du schreibst eine Geschichte und Mogao malt dazu passende Bilder. Das klingt wie Zauberei, oder?

Was die Forschenden herausgefunden haben

Die Forschenden haben herausgefunden, dass Mogao besser ist als andere Systeme, die nur Bilder oder nur Texte erstellen können. Es kann beide gleichzeitig und in einer bestimmten Reihenfolge machen. Das bedeutet, es kann eine Geschichte schreiben und dazu passende Bilder malen, die genau in die Geschichte passen. Mogao kann auch Bilder bearbeiten und neue Bilder aus verschiedenen Teilen erstellen.

Wie haben sie das gemacht?

Um das zu erreichen, haben die Forschenden Mogao mit vielen neuen Ideen ausgestattet. Sie haben eine spezielle Architektur entwickelt, die tief in die Daten eintaucht. Dazu gehören zwei Visionen-Encodierer, die wie zwei Augen arbeiten und die Bilder genau verstehen. Außerdem haben sie eine Methode namens „interleaved rotary position embeddings“ verwendet, die wie ein Dirigent die Reihenfolge der Bilder und Texte steuert.

Warum ist das wichtig?

Das ist wichtig, weil es die Art und Weise verändert, wie wir Geschichten und Bilder erstellen. Mogao kann uns helfen, kreative Projekte schneller und besser zu machen. Zum Beispiel könnten Schriftsteller und Künstler zusammenarbeiten, um Bücher zu erstellen, die sowohl wunderschöne Bilder als auch spannende Geschichten enthalten.

Du willst mehr über die Studie wissen?

Die Forschenden, die Mogao entwickelt haben, heißen Chao Liao, Liyang Liu, Xun Wang, Zhengxiong Luo, Xinyu Zhang, Wenliang Zhao, Jie Wu, Liang Li, Zhi Tian und Weilin Huang. Sie haben ihre Ergebnisse in einem wissenschaftlichen Artikel veröffentlicht.

Zum Original-Paper auf ArXiv