Wenn Bilder und Worte sich verbünden: Die Geheimnisse der künstlichen Intelligenz

Stell dir vor, ein Computer könnte nicht nur sehen, sondern auch denken. Forschende haben herausgefunden, wie das möglich ist.

Hast du schon mal von Vision-Language-Modellen gehört? Das sind Computerprogramme, die Bilder sehen und verstehen können, so wie du und ich. Diese Programme können aber noch mehr: Sie können auch denken und logische Schlussfolgerungen ziehen, ähnlich wie ein großer Sprachcomputer.

Was die Forschenden herausgefunden haben

Die Forschenden haben herausgefunden, dass man diese beiden Fähigkeiten – das Sehen und das Denken – miteinander verbinden kann. Sie haben Modelle miteinander verschmolzen, sodass die Denkfähigkeiten des Sprachcomputers in das Sehmodell übertragen wurden. Das bedeutet, dass der Computer nicht nur Bilder sehen, sondern auch darüber nachdenken kann.

Wie haben sie das gemacht?

Um das zu erreichen, haben die Forschenden verschiedene Modelle miteinander verschmolzen. Das ist so, als würde man zwei Puzzles zusammenfügen, die aus unterschiedlichen Teilen bestehen. Sie haben die Parameter, also die Einstellungen, der verschiedenen Modelle miteinander verbunden. So konnten sie die Denkfähigkeiten des Sprachcomputers in das Sehmodell übertragen, ohne extra trainieren zu müssen.

Warum ist das wichtig?

Diese Entdeckung ist wichtig, weil sie zeigt, wie man Computerprogramme verbessern kann, die sowohl sehen als auch denken können. Das könnte in vielen Bereichen nützlich sein, zum Beispiel in der Medizin, wo Computer Bilder von Röntgenaufnahmen analysieren und gleichzeitig denken können, um Krankheiten zu erkennen.

Du willst mehr über die Studie wissen?

Die Forschenden, die diese Entdeckung gemacht haben, heißen Shiqi Chen, Jinghan Zhang, Tongyao Zhu, Wei Liu, Siyang Gao, Miao Xiong, Manling Li und Junxian He. Ihre Arbeit wurde 2025 veröffentlicht.

Zum Original-Paper auf ArXiv