Wenn Sprachmodelle ausbrechen: Die Jagd nach den Schwachstellen

Stell dir vor, ein Sprachmodell könnte durch Tricks dazu gebracht werden, gefährliche Dinge zu sagen. Forschende haben herausgefunden, wie das passieren kann und wie man es verhindern kann.

Stell dir vor, du hast einen Freund, der immer alles richtig macht. Aber manchmal, wenn du ihn mit bestimmten Tricks fragst, sagt er Dinge, die er nicht sagen sollte. Genau das kann auch mit Sprachmodellen passieren, die auf künstlicher Intelligenz basieren. Diese Modelle können sprechen und verstehen, was wir sagen. Aber sie können auch ausbrechen, wenn man sie mit bestimmten Tricks dazu bringt. Das ist gefährlich, weil sie dann unangenehme oder sogar gefährliche Dinge sagen könnten.

Was die Forschenden herausgefunden haben

Forschende haben herausgefunden, dass Sprachmodelle, die auf Audio basieren, oft nicht sicher sind. Sie haben eine Menge von Tricks ausprobiert und festgestellt, dass die Modelle oft nicht robust genug sind. Das bedeutet, dass sie leicht ausbrechen können. Sie haben auch herausgefunden, dass selbst kleine Veränderungen in der Sprache oder im Tonfall die Modelle aus der Fassung bringen können. Das ist wie ein kleiner Schubs, der einen großen Stein ins Rollen bringt.

Wie haben sie das gemacht?

Um das herauszufinden, haben die Forschenden eine große Menge von Tricks gesammelt und in Audio umgewandelt. Sie haben dann verschiedene Sprachmodelle getestet und gesehen, wie sie darauf reagieren. Um es noch realistischer zu machen, haben sie eine Methode entwickelt, um die Tricks dynamisch zu verändern. Das bedeutet, sie haben kleine Veränderungen in der Zeit, der Frequenz und der Lautstärke gemacht, um zu sehen, wie die Modelle darauf reagieren. Sie haben auch sichergestellt, dass die Tricks immer noch verstanden werden können, damit die Modelle nicht einfach nur verwirrt sind.

Warum ist das wichtig?

Das ist wichtig, weil Sprachmodelle in vielen Bereichen eingesetzt werden, wie zum Beispiel in Smartphones oder in der Medizin. Wenn sie ausbrechen können, könnte das gefährlich sein. Zum Beispiel könnte ein Sprachmodell in einem Krankenhaus falsche Informationen geben. Daher ist es wichtig, dass die Modelle sicher und robust sind, damit sie nicht ausbrechen können. Die Forschenden hoffen, dass ihre Ergebnisse dazu beitragen, bessere und sicherere Sprachmodelle zu entwickeln.

Du willst mehr über die Studie wissen?

Die Forschenden, die an dieser Studie beteiligt waren, heißen Zirui Song, Qian Jiang, Mingxuan Cui, Mingzhe Li, Lang Gao, Zeyu Zhang, Zixiang Xu, Yanbo Wang, Chenxi Wang, Guangxian Ouyang, Zhenhao Chen und Xiuying Chen. Der Artikel mit dem Titel „Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models“ wurde 2025 veröffentlicht.

Zum Original-Paper auf ArXiv