Exponentielles Datenwachstum

Dinge, die man heutzutage haben muss? Eine Strategie für die persönlichen Daten!

Das, was bei mir so auf den Festplatten liegt, ist für mein Leben inzwischen missionskritisch. Ein wichtiger Teil meines beruflichen Daseins hängt von den angehäuften Daten ab. Privat dokumentieren sie mein Leben, halten Erinnerungen wach, sind Zeitzeugen und Lifelog.

150417-zunahme.png
Exponentielles Wachstum – die y-Achse hat nämlich eine logarithmische Skala. Das heisst: Innert 15 Jahre hat sich meine Datenmenge von 100 MB pro Jahr auf 100 GB vertausendfacht.

Darum habe ich mir neulich die Frage gestellt, wie viele Daten ich eigentlich produziere. Das ist für eine Datenstrategie eine wichtige Information – denn auf die entsprechenden Kapazitäten sollte man die Ablage und die Datensicherung ausrichten. Ich archiviere meine Daten zentral auf meinem Windows-Desktop-PC. Das Macbook enthält zwar viel Kram und wird per TimeMachine gesichert. Doch alles, was dort liegt, ist redundant auch auf der Windows-Festplatte vorhanden, sodass ich mit der Sicherung (und meiner datenjournalistischen Recherche) nur an einem Punkt ansetzen muss.

Datenmining auf der Festplatte
Ich habe mir das Programm DirPrinter von Mathias Gerlach von aborange.de geschnappt und damit ein Inventar meiner Daten-Festplatte erstellt. Das Programm DirPrinter ist dazu da, druckbare Dateilisten zu erstellen. Es kann diese aber auch in mehrere Dateiformate (Excel, XML, CSV, PDF, HTML, Text) überführen. Ich habe eine Liste mit Dateinamen, Änderungsdatum, Dateityp und Grösse für Excel erstellt. Ich hätte anstelle des Änderungsdatums lieber das Datum der Erstellung gehabt, aber das steht in DirPrinter leider nicht zur Auswahl. In Excel habe ich vom Änderungsdatum nur das Jahr betrachtet, die vielen Dateitypen in wenigen Überkategorien zusammengefasst und dann einige Pivot-Auswertungen gemacht.

Die Erkenntnisse sind im Detail überraschend. Aber erst die Eckdaten: Auf meiner Datenfestplatte liegt gut ein halbes Terabyte in satten 100’000 Dateien herum. Ein Teil davon ist nicht relevant. Beispielsweise das Download-Archiv, in dem Riesendateien wie die ISO-Images der neuen Windows-Versionen stecken. Die Kerndaten, die sich nicht wieder aus dem Internet herunterladen liessen, sind in den Dokumentordnern enthalten. Es lohnt sich übrigens wirklich, seine Daten so zu organisieren, dass alles, was unbedingt gesichert werden muss, getrennt von dem gelagert wird, was auch verloren gehen dürfte. Dieser Dokumentordner ist total 335 GB gross. Geht eigentlich noch.

Gigabyte-weise Audio
Der grösste Teil davon macht mit 144 GB Audio aus. Daran ist zum Teil meine Musiksammlung schuld, auch wenn die mit 70 GB nicht immens gross ist. Die anderen etwas mehr als 70 GB stammen von Radio Stadtfilter. Ich archiviere die Aufzeichnungen des Digitalmagazins als unkomprimiertes Flac und die Morgomat-Sendungen als MP3. Da kommt einiges zusammen.

Platz zwei bestreitet – wenig überraschend – Video. Die rund 60 GB sind zum grössten Teil private Clips von Ferien und Festen, viele ungeschnittene Aufnahmen, aber auch eine Handvoll produzierter Ferienfilme. Daneben finden sich die Publisher-Insiders-Folgen und die Videos für dieses Blog. Ich behalte bei Videoprojekten nur die fertige Datei. Die Projektdaten sind so gross, dass ich dafür einen übermässigen Aufwand treiben müsste.

Platz drei belegen mit knapp 60 GB ZIP-Dateien aller Art. Für die Analyse wäre es nun natürlich interessant gewesen, den Inhalt der ZIP-Dateien miteinzubeziehen. Das Auspacken bzw. «Durchleuchten» aller ZIP-Dateien wäre aufwändig geworden, darum habe ich darauf verzichtet. Typischerweise archiviere ich abgeschlossene Projekte und wichtige Projekt-Zwischenstände als ZIP. Auch das Recherchematerial für Artikel wird, wenn der Artikel fertig ist, verzippt. Gut die Hälfte davon (31 GB) ist wiederum Audio: Die in GarageBand erstellten Digitalk-Episoden habe ich für die Archivierung unter Windows auf dem Mac als ZIP-Datei angelegt. (Das aus praktischen Gründen, weil die GarageBand-Projekte aus sehr vielen Einzeldateien bestehen.)

Wer in RAW fotografiert, dem blüht etwas
Platz vier sind Grafikdateien, das heisst, vor allem Digitalfotos. Das sind 51 GB. Überschaubar ist das nur, weil ich allermeistens in JPG fotografiere. Wenn ich einer dieser RAW-Fanatiker wäre, dann könnte man diese Zahl über den Daumen gepeilt verfünffachen: Das RAW-Archiv wäre dann mit Abstand der grösste Brocken in meinem Datenlager.

Auf Platz fünf (11 GB) sind Programmdateien zu finden. Dazu gehören von mir selbst geschriebene Programme, aber auch Archiviertes. Davon müsste sicherlich auch nicht alles aufbewahrt werden.

150417-typen.png
Die Analyse nach Dateityp: «Normale» Dokumente (Office, Mail und Source-Code) machen nur 3 Prozent aus. Der Hauptharst steuern Video und Audio bei – und die Tausenden von Digitalfotos.

Abgeschlagen auf Platz sechs mit ebenfalls ungefähr 11 GB sind die Dokumente: Word, Excel, PDFs, Layout-Dateien von InDesign und PageMaker, HTML-Dateien von clickomania.ch und die von mir betreute Site dorfposcht.ch, sowie meine Delphi-Programmierprojekte und sonstiger Source-Code. Wenn man nur diese sichern müsste, wärs ein Klack. Die haben auf einem USB-Stick platz oder lassen sich problemlos in einem Gratis-Cloud-Angebot unterbringen.

Mengenmässig sind die Digitalfotos mit Abstand führend – sie machen mehr als die Hälfte der Dateien aus. Die Dokumente bestreiten einen Drittel und Audio, Video und die Programmdateien sind zahlenmässig fast zu vernachlässigen.

Aufruf: Wie ist das bei euch?
Mich würde interessieren: Wie ist das bei euch? Ihr braucht für die Analyse nicht den gleichen Aufwand zu betreiben wie ich. Aber wenn ihr Lust habt, mir via Kommentare ein paar Erkenntnisse dazu zukommen zu lassen, dann wäre ich euch dankbar. Daraus liessen sich dann sicherlich auch Erkenntnisse für einen Artikel im Tagesanzeiger ziehen…

Autor: Matthias

Diese Website gibt es seit 1999. Gebloggt wird hier seit 2007.

2 Gedanken zu „Exponentielles Datenwachstum“

  1. Gerne doch:

    Aktuell auf dem Server 1.5TB. Davon 15GB alte Games, 1TB Filme, Serien und Videos, 73GB MP3, 92GB Fotos, 64GB Software, 10GB Bücher und Heftarchive, 9GB “Quatsch” wie Chatlogs vom guten alten MSN etc. und nur 162MB Dokumente.

    Auf ein paar Disketten sind noch Sachen wie Savegames von Transport Tycoon und anderes aus den 90igern, aber das macht von der Menge her nichts aus.

    Selbst “erzeugt” und somit in meiner Verantwortung für die Sicherung sind nur ein paar GB Videos, die Fotos (die werden dank RAW immer grösser) und die Dokumente. Also nur ca. 10% des Datenbestandes.

  2. Das Wort “missionskritisch” gefällt mir. Das nehme ich in meinem Wortschatz auf.
    Meine Frau und ich haben zusammen ungefähr: 11GB Programme, 14GB Dokumente, 82GB Bilder (jpg) (zum Teil doppelt), 41GB Musik, 1383GB Video (Wir haben drei erwachsene Kinder und ich habe sie regelmässig gefilmt. Die Film sind immer noch im Rohzustand, da ich noch nicht da zugekommen bin, sie zu schneiden. Jeder “Kinderfilm” habe ich in zwei verschiedenen Formaten abgespeichert. In den 1383GB sind etwa 254GB Spielfilme enthalten). Alles privat, nicht berufliches. Alles, ausser Programme, wird regelmässig von Hand auf externe Harddisk kopiert.

Kommentar verfassen