Heute sind es Angebote wie YouTube, die rekordverdächtig hohe Datenmengen verursachen. Die Videoplattform produziert jährlich Daten im Umfang von hundert Petabyte – eine Zahl mit 17 Nullen. Die YouTube-Flut übertrifft alles, was etwa die Riesenteleskope der Astronomie oder soziale Medien wie Twitter produzieren; das zeigt eine US-Studie, die im Magazin «PLOS Biology» erschienen ist. Die heutige Konstellation werde sich aber bald ändern, prognostizieren die Autoren der Studie.
Die Wissenschaftler haben untersucht, wie stark verschiedene «Big-Data»-Bereiche in den letzten Jahren gewachsen sind und, darauf aufbauend, eine Hochrechnung für das Jahr 2025 erstellt.
Ihr Fazit: Die Genom-Daten sind am stärksten angewachsen. «Sie haben sich jedes halbe Jahr nahezu verdoppelt», sagt Co-Autor Michael Schatz vom Cold Spring Harbor Laboratory in New York: «In zehn Jahren wird daher das digital gespeicherte menschliche Erbgut in den Rechnern der Welt am meisten Speicherplatz beanspruchen.» Für den Computerwissenschaftler ist klar: «Wenn von besonders grossen Dingen die Rede ist, sollte man daher künftig den Begriff ‹genomisch gross› verwenden und nicht mehr ‹astronomisch gross›.»
Erbgut-Analysen werden billiger – und mehr
Nicht alle Computerfachleute finden die Big-Data-Hochrechnung aus den USA wirklich aussagekräftig. Doch unbestritten ist: Weil Genom-Analysen immer billiger werden, werden die weltweit gespeicherten Daten auf jeden Fall massiv zunehmen.
Bis in zehn Jahren könnten rund eine Milliarde Menschen ihr Erbgut sequenziert haben, schätzt die US-Studie. Für jedes einzelne Individuum müssen die Sequenzier-Maschinen das menschliche Genom mit seinen drei Milliarden Basenpaaren durchpflügen – für eine lückenlose Analyse sogar jeweils mehrmals. Bewahrheitet sich die Prognose, soll der Speicherbedarf für Erbgut-Daten im Jahr 2025 bis zu vier Millionen mal grösser sein als heute für Youtube.
Datenflut bräuchte Superdatenbank
Für die Genforscher bringt eine solche Datenflut neue Probleme mit sich. Die Autoren der Studie warnen, dass schon das reine Datenvolumen es verhindere, die heute oft noch isolierten Genom-Datenbanken von Universitäten, Spitälern und Labors weltweit stärker zu vernetzen. Denn: Eine solche Vernetzung benötige bald mehr Speicherkapazitäten als zur Verfügung stünden. Zugleich aber wäre gerade ein Austausch von Erbgut-Daten im grossen Umfang wichtig, um gut fundierte Erkenntnisse zu gewinnen – etwa über den Zusammenhang von Krankheiten und Genen. Ein Dilemma also.
Für Michael Schatz ist daher klar: Wollen die Genforscher aus der verzwickten Situation herausfinden, müssen sie ihre Datenflut einschränken. «Welche Daten wollen wir wie detailliert speichern und welche filtern wir gleich ganz weg?» – das sei laut Schatz nun die Frage, die es zu klären gilt. Und zwar bald.