Wenn KI programmiert: Der große Code-Wettbewerb

Stell dir vor, Computer schreiben selbstständig Code. Forschende haben einen spannenden Test entwickelt, um herauszufinden, wie gut das klappt.

Stell dir vor, du hast einen Freund, der immer genau weiß, wie man ein Problem mit einem Computer löst. Dieser Freund ist eine KI, also eine künstliche Intelligenz. Forschende haben sich gefragt, wie gut solche KIs wirklich sind, wenn es darum geht, komplizierte Aufgaben zu lösen. Sie haben einen großen Test entwickelt, den DS-bench, um das herauszufinden.

Was die Forschenden herausgefunden haben

Die Forschenden haben herausgefunden, dass die besten KIs, die sie getestet haben, noch nicht perfekt sind. Sie können zwar viele Aufgaben lösen, aber es gibt noch viel Raum für Verbesserungen. Zum Beispiel hat die beste KI, die sie getestet haben, nur etwa 20 Prozent der Aufgaben richtig gelöst. Das bedeutet, dass es noch viel zu lernen gibt.

Wie haben sie das gemacht?

Um den DS-bench zu erstellen, haben die Forschenden 1.000 Aufgaben aus der echten Welt gesammelt. Diese Aufgaben stammen von Programmierern, die ihre Projekte auf GitHub geteilt haben. Die Aufgaben beinhalten verschiedene Python-Bibliotheken, die oft in der Datenwissenschaft verwendet werden. Sie haben dann eine Pipeline entwickelt, um diese Aufgaben zu erstellen. Das bedeutet, sie haben eine Reihe von Schritten festgelegt, um sicherzustellen, dass die Aufgaben klar und fair sind.

Warum ist das wichtig?

Dieser Test ist wichtig, weil er zeigt, wie gut KIs wirklich sind, wenn es darum geht, echte Probleme zu lösen. Wenn KIs besser werden, können sie uns helfen, schneller und effizienter zu arbeiten. Zum Beispiel könnten sie uns helfen, große Datenmengen zu analysieren oder komplexe Programme zu schreiben. Das könnte in vielen Bereichen nützlich sein, von der Medizin bis hin zur Umweltforschung.

Du willst mehr über die Studie wissen?

Die Forschenden, die diesen Test entwickelt haben, heißen Shuyin Ouyang, Dong Huang, Jingwen Guo, Zeyu Sun, Qihao Zhu und Jie M. Zhang. Der Artikel heißt „DS-Bench: A Realistic Benchmark for Data Science Code Generation“.

Zum Original-Paper auf ArXiv