Stell dir vor, eine KI könnte nicht nur sehen und hören, sondern auch verstehen, was sie sieht und hört. Forschende haben eine neue Methode entwickelt, um das zu ermöglichen.
Hast du schon mal von multimodalen großen Sprachmodellen gehört? Das sind KIs, die nicht nur Texte verstehen, sondern auch Bilder und Töne. Stell dir vor, du zeigst einer KI ein Bild von einem Hund, der bellt, und sie kann dir sagen, dass der Hund wahrscheinlich hungrig ist. Das ist genau das, was diese KIs können.
Was die Forschenden herausgefunden haben
Die Forschenden haben ein neues System namens EchoInk-R1 entwickelt. Es kann besser als andere Systeme verstehen, was in einem Bild und einem Ton passiert, wenn sie zusammen gezeigt werden. Zum Beispiel, wenn du ein Bild von einem Auto siehst und gleichzeitig das Geräusch eines Motors hörst, kann EchoInk-R1 erkennen, dass das Auto fährt. Das System hat in Tests 85.77% der Fragen richtig beantwortet, während das alte System nur 80.53% schaffte.
Wie haben sie das gemacht?
Um das zu erreichen, haben die Forschenden eine große Menge an Daten gesammelt. Sie haben Bilder und Töne zusammengebracht und dazu Fragen gestellt. Dann haben sie eine Methode namens Verstärkungslernen verwendet. Das ist wie ein Spiel, bei dem die KI lernt, besser zu werden, indem sie Belohnungen bekommt, wenn sie richtig liegt. Sie haben auch eine spezielle Technik namens Group Relative Policy Optimization verwendet, um das Lernen zu verbessern.
Warum ist das wichtig?
Diese neue Methode ist wichtig, weil sie KIs hilft, besser zu verstehen, was in der Welt passiert. Das kann in vielen Bereichen nützlich sein, zum Beispiel in der Medizin, wenn Ärzte Bilder und Töne von Patienten analysieren müssen. Oder in der Überwachung, wenn Kameras und Mikrofone zusammenarbeiten, um sicherzustellen, dass alles in Ordnung ist.
Du willst mehr über die Studie wissen?
Die Forschenden hinter dieser Entdeckung sind Zhenghao Xing, Xiaowei Hu, Chi-Wing Fu, Wenhai Wang, Jifeng Dai und Pheng-Ann Heng. Sie haben ihre Ergebnisse in einem wissenschaftlichen Artikel veröffentlicht.