Wie Bilder und Texte sich gegenseitig helfen lernen

Stell dir vor, ein Computer könnte Bilder und Texte verstehen, ohne dass du ihm alles erklären musst. Forschende haben herausgefunden, wie das geht.

Hast du schon mal von Vision-Language-Modellen gehört? Das sind Computerprogramme, die sowohl Bilder als auch Texte verstehen können. Diese Programme sind sehr gut darin, Bilder zu erkennen, ohne dass sie vorher dafür trainiert wurden. Das nennt man „zero-shot learning“.

Was die Forschenden herausgefunden haben

Die Forschenden haben ein neues Verfahren namens CacheFL entwickelt. Es hilft, diese Modelle effizienter zu trainieren, ohne dass sensible Daten an einen zentralen Ort gesendet werden müssen. Das bedeutet, dass die Daten sicher bleiben. Außerdem haben sie herausgefunden, dass man mit diesem Verfahren die Modelle schneller und besser trainieren kann.

Wie haben sie das gemacht?

Die Forschenden haben ein leichtes Modell, das Cache-Modell genannt wird, entwickelt. Dieses Modell wird mit Hilfe eines anderen Modells, das Bilder erzeugen kann, initialisiert. Das Cache-Modell wird dann an verschiedene Computer verteilt, die es trainieren. Die Ergebnisse werden dann auf einem zentralen Server zusammengeführt und wieder verteilt. So wird das Modell immer besser, ohne dass die Daten an einen zentralen Ort gesendet werden müssen.

Warum ist das wichtig?

Dieses Verfahren ist wichtig, weil es die Sicherheit und Privatsphäre der Daten gewährleistet. Es bedeutet, dass sensible Informationen nicht an einen zentralen Ort gesendet werden müssen, was besonders in Zeiten von Datenschutz wichtig ist. Außerdem ist es ressourcenschonender, weil weniger Rechenleistung und weniger Datenübertragung benötigt werden.

Du willst mehr über die Studie wissen?

Die Forschenden, die an diesem Projekt gearbeitet haben, sind Mengjun Yi, Hanwen Zhang, Hui Dou, Jian Zhao und Furao Shen. Sie haben ihre Ergebnisse in einem wissenschaftlichen Artikel veröffentlicht.

Zum Original-Paper auf ArXiv