Wenn Maschinen Gefühle hören: Wie MIKU-PAL Emotionen in Stimmen erkennt

Stell dir vor, eine Maschine kann Gefühle in Stimmen erkennen. Forschende haben ein System entwickelt, das das möglich macht.

Stell dir vor, du sprichst mit einem Freund und er klingt traurig. Du merkst das, weil du seine Stimme hörst und sein Gesicht siehst. Aber wie wäre es, wenn eine Maschine das auch könnte? Forschende haben ein System namens MIKU-PAL entwickelt, das genau das kann. Es kann Gefühle in Stimmen erkennen, indem es Videos analysiert. Das klingt wie Zauberei, ist aber tatsächlich Wissenschaft.

Was die Forschenden herausgefunden haben

Die Forschenden haben herausgefunden, dass MIKU-PAL genauso gut wie Menschen ist, wenn es darum geht, Gefühle in Stimmen zu erkennen. Es kann sogar 26 verschiedene Gefühle unterscheiden, wie Freude, Trauer oder Überraschung. Das System ist nicht nur genau, sondern auch sehr schnell und kostengünstig. Es kann große Mengen an Daten in kurzer Zeit analysieren, was für Menschen sehr anstrengend wäre.

Wie haben sie das gemacht?

Um das zu erreichen, haben die Forschenden verschiedene Techniken kombiniert. Sie haben Algorithmen verwendet, die Gesichter in Videos erkennen und verfolgen können. Dann haben sie ein großes Sprachmodell genutzt, das sowohl die Stimme als auch das Gesicht analysiert. Dieses Modell lernt, welche Merkmale in der Stimme und im Gesicht auf bestimmte Gefühle hinweisen. Zum Beispiel kann es erkennen, wenn jemand lacht oder weint.

Warum ist das wichtig?

Das ist wichtig, weil es viele Anwendungen gibt. Zum Beispiel könnte MIKU-PAL in der Medizin helfen, indem es die Stimmung von Patienten analysiert. Es könnte auch in der Unterhaltungselektronik verwendet werden, um Computer oder Smartphones menschlicher zu machen. Stell dir vor, dein Computer könnte erkennen, ob du glücklich oder traurig bist und entsprechend reagieren. Das wäre doch cool, oder?

Du willst mehr über die Studie wissen?

Die Forschenden hinter MIKU-PAL sind Cheng Yifan, Zhang Ruoyi und Shi Jiatong. Ihr Artikel „MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling“ wurde 2025 veröffentlicht.

Zum Original-Paper auf ArXiv