Wenn GitHub-Repositorien in die Archive wandern

Stell dir vor, du findest ein altes Spiel, das du als Kind geliebt hast, aber die Dateien sind beschädigt. Forschende haben herausgefunden, wie oft das im Internet passiert.

Stell dir vor, du hast ein Lieblingsspiel, das du auf GitHub gefunden hast. Du möchtest es in 10 Jahren wieder spielen, aber die Dateien sind beschädigt oder fehlen. Das passiert oft, wenn Softwareprojekte auf Plattformen wie GitHub oder GitLab gespeichert werden. Diese Plattformen machen die Software für alle zugänglich, aber manchmal werden die Dateien nicht richtig archiviert. Forschende haben sich angeschaut, wie gut diese Projekte im Internet Archive gespeichert werden.

Was die Forschenden herausgefunden haben

Die Forschenden haben über 12.000 Projekte auf GitHub untersucht. Sie fanden heraus, dass mehr als 31% der Projektseiten kleine Schäden haben und 1,6% große Schäden. Das bedeutet, dass viele Seiten nicht richtig funktionieren. Außerdem haben sie festgestellt, dass nur etwa 5% der Dateien in den Projekten archiviert wurden. Die meisten Projekte haben gar keine Dateien im Internet Archive. Dateien, die direkt von der Startseite der Projekte verlinkt sind, haben eine höhere Chance, archiviert zu werden.

Wie haben sie das gemacht?

Um das herauszufinden, haben die Forschenden viele Projektseiten auf GitHub untersucht. Sie haben geschaut, wie gut die Seiten im Internet Archive gespeichert sind. Sie haben auch die Dateien in den Projekten analysiert, um zu sehen, wie viele davon archiviert wurden. Sie haben festgestellt, dass die Dateien, die direkt von der Startseite verlinkt sind, besser archiviert werden als die, die tiefer in den Ordnern versteckt sind.

Warum ist das wichtig?

Das ist wichtig, weil viele Menschen auf diese Projekte angewiesen sind. Wenn die Dateien beschädigt oder nicht vorhanden sind, kann das große Probleme verursachen. Zum Beispiel könnten wichtige Programme oder Spiele nicht mehr funktionieren. Es ist also wichtig, dass die Dateien richtig archiviert werden, damit sie in Zukunft noch zugänglich sind. Das hilft auch dabei, wichtige Informationen und Projekte für zukünftige Generationen zu bewahren.

Du willst mehr über die Studie wissen?

Die Forschenden, die diese Studie durchgeführt haben, heißen David Calano, Michele C. Weigle und Michael L. Nelson. Der Titel des Artikels lautet „GitHub Repository Complexity Leads to Diminished Web Archive Availability“.

Zum Original-Paper auf ArXiv