Wissenswertes über Big Data Hosting
Die Datenmengen verdoppeln sich derzeit alle zwei Jahre. Diese Entwicklung stellt auch Service-Provider vor neue Herausforderungen. Mit einer rein quantitativen Aufrüstung der Systeme ist es dabei nicht getan, notwendig sind vielmehr intelligente Lösungen, die das Datenaufkommen ohne Leistungseinbußen optimieren.

Hier erfahren Sie......worauf es beim Big Data Hosting ankommt...was der Unterschied zu Cloud-Diensten ist ...
Hier erfahren Sie......worauf es beim Big Data Hosting ankommt...was der Unterschied zu Cloud-Diensten ist
Neben Cloud Computing und mobilen Systemen ist "Big Data" in letzter Zeit zu einem der Top-Themen der IT geworden. Derzeit verdoppelt sich der weltweite Datenbestand etwa alle zwei Jahre und in den Unternehmen hat das Megabyte als Messgröße längst ausgedient.
Rechenzentren "denken" heute kaum noch in Terabyte, sondern gleich in Petabyte - man ist also schon bei Größenordnungen von 1015 angelangt. Betrachtet man das Datenwachstum nicht mehr lokal, sondern global, so ist neuerdings bereits das Zettabyte (1021) en vogue: Um 1,8 Zettabyte soll nämlich 2011 die globale Datenmenge gewachsen sein. Vermutlich werden wir auch noch das Yottabyte mit seinen 1024 Byte erleben.
Preisverfall versus Datenwachstum

Bis in die Terabyte-Ära - das ist noch nicht allzu lange her - konnte man das Datenwachstum in der Regel problemlos durch zusätzliche Speicher-, Verarbeitungs- und Übertragungskapazitäten auffangen. Die entsprechenden Technologien entwickelten sich weitgehend parallel zu den Datenmengen, die Kosten für die Speicherung nahmen zwar insgesamt tendenziell zu, sanken aber pro Byte drastisch.
Ältere IT-Nutzer können sich noch an die ersten 10-MByte-Festplatten für PCs Datenfluterinnern, für die man rund 5000 Mark zu zahlen hatte. Heute sind 10 MByte für knapp 0,005 Cent zu haben, wobei ein einziges hochauflösendes Foto schon mehr Platz benötigt.
Zwar muss die ständige Verkleinerung und Verbilligung von Systemkomponenten wie Speichermedien irgendwann an eine physikalische bzw. technische Grenze stoßen, denn Atome lassen sich nun mal nicht verkleinern. Doch das aktuelle Problem mit Big Data liegt weniger darin, diese Datenmengen überhaupt auf geeigneten Medien unterzubringen, sondern eher darin, sie dann auch noch mit vertretbarem Aufwand verarbeiten und verwalten zu können.
Multimedia im Fokus
Die Ursachen für das enorme Datenwachstum sind vielfältig, wobei zwei im Vordergrund stehen: Zum einen erzeugt die IT selbst immer mehr Daten. Insbesondere die fortschreitende Digitalisierung von technischen Prozessen führt dazu, dass immer mehr Daten entstehen: Daten von digitalen Messfühlern, Log-Daten, RFID-Daten, Bewegungsdaten, GPS-Daten und alle Daten, die die digitalen Systeme untereinander austauschen.
Jeder Zugriff auf ein Lager, jeder Prozessschritt in der Fertigung, jeder Kassenvorgang erzeugt eine Flut von Daten, die konsolidiert, ausgewertet und gespeichert werden müssen. Zu den vom System generierten Daten kommen jene, die durch die Nutzer erzeugt werden. Die klassischen Dokumente sind unter dem Aspekt Datenvolumen heute zu vernachlässigen, im Zentrum der Aufmerksamkeit stehen Multimedia-Inhalte, so zum Beispiel Audio-Files, hochauflösende Fotos oder HD-Videos. Diese Formate sind nicht nur äußerst datenintensiv, sie werden von den Nutzern auch mehr und mehr als Normalfall angesehen - wie der Weihnachtsgruß an die Tante, der ganz selbstverständlich ein HD-Video enthält.
Social Media haben sich dabei als Beschleunigungsfaktor für das Datenwachstum erwiesen. Hinzu kommt, dass viele Daten mehrfach gespeichert werden und "alte" Daten nur selten gelöscht werden, sodass ein immenser "Datenmüll" entsteht.
Dabei ist das hohe Datenaufkommen keineswegs auf die privaten Anwender beschränkt, auch wenn von ihnen im Zuge der sogenannten Consumerization der Anstoß ausging. Multimedia-Inhalte sind vor dem Hintergrund einer allgemein intensivierten Medien-Kommunikation beispielsweise auch in Online-Shops üblich, wo den Kunden etwa hochauflösende Panorama-Fotos oder Videos der angebotenen Produkte gezeigt werden oder Videos gleich Bestandteile von Leistungen sind.
Die aus unterschiedlichen Gründen entstehenden großen Datenmengen werden in der IT mittlerweile durchaus als Problem gesehen - was sich auch daran zeigt, dass sich mit Big Data ein eigener Begriff etabliert hat. Denn es reicht ja nicht, die Daten irgendwo abzulegen, vielmehr muss man sie zum richtigen Zeitpunkt, mit begrenztem Aufwand und ohne hohe Latenzzeit auch wiederfinden.
Herkömmliche relationale Datenbanken können die großen Datenmengen, die zudem nur zu einem geringen Teil strukturierte Daten umfassen, nicht mehr optimal verarbeiten. Insbesondere für datenintensive Anwendungen, beispielsweise für Data Warehouse oder Data Mining, müssen daher andere Lösungen gefunden werden.
Datenwachstum in der Cloud
Hier bieten Storage Resource Management und Data Lifecycle Management geeignete Technologien und Maßnahmen, die von der Storage-Virtualisierung über die Deduplizierung bis zu einer durchgängigen Priorisierung der Daten reichen. Dabei steht meist die Datenhaltung im Vordergrund, also die klassische IT, wie sie mit den bekannten Server- und Storage-Systemen betrieben wird.
Auch für Hosting und Service Providing, also für eine extern betriebene Datenverarbeitung bzw. in einem weiteren Sinn für Cloud Computing generell, stellt das starke Datenwachstum eine enorme Herausforderung dar. So sind die Provider mit wachsenden Datenmengen konfrontiert, die sie ihren Unternehmenskunden abnehmen.
Schon seit Längerem beobachten Service Provider, dass ein Datenaufkommen, das bei ihren Kunden bisher nur als Spitzenbelastung aufgetreten ist, nun mehr und mehr zur normalen Beanspruchung wird. Beim Hosting betrifft das nicht die vom System generierten Daten, sondern die erwähnten, von den Nutzern erzeugten Daten - konkret vor allem Daten aus Anwendungen, die intensiv von grafischen Darstellungen sowie von Audio- und Video-Elementen Gebrauch machen.
Wenn Unternehmen mit Big Data operieren, müssen natürlich auch die Provider in der Lage sein, solche Daten für ihre bestehenden Kunden zu verarbeiten. Die Dienstleister müssen sich also darauf einstellen, dass die bei ihnen verarbeiteten Datenmengen in der nächsten Zeit (weiter) stark steigen werden.
Technologische Grenzen überwinden Gerade wenn Unternehmen beim Handling von Big Data an Grenzen der eigenen Ressourcen, aber auch des eigenen Know-hows stoßen, werden sie vermehrt nach Partnern Ausschau halten, die ihnen nicht nur zeigen können, wie es geht, sondern die ihnen am besten den Datenwust gleich ganz abnehmen. Es ist damit zu rechnen, dass in den nächsten Jahren mehr Unternehmen an diese Grenzen stoßen werden - ja, viele werden überhaupt erst noch erkennen, dass der herkömmlichen Datenhaltung und -verarbeitung, etwa mittels relationaler Datenbanken, hier Grenzen gesetzt sind.
Service Provider müssen für diese wachsenden Anforderungen eine entsprechend leistungsfähige Infrastruktur aufbauen und betreiben. Dies umfasst zunächst quantitativ mehr Systeme, mehr Aufwand für Kühlung und den Ausbau bei der Netzwerktechnik. Was die Hardware anbelangt, so können Provider hier zum Teil mit dem üblichen Preisverfall rechnen, der die Kosten für die nötigen systemtechnischen Erweiterungen wieder begrenzt.
Diesem Preisverfall unterliegen allerdings nicht die zu einem professionellen Hosting-Angebot gehörenden Service-Leistungen. Dennoch können Provider diese Leistungen regelmäßig zu günstigeren Preisen erbringen als Unternehmen selbst, da sie in hohem Maße Skalierungs- und Synergieeffekte einsetzen. Dazu kommt, dass sie als Spezialisten über das erforderliche Know-how, die Erfahrung und über geschultes Personal verfügen - Ressourcen Ressourcen, welche ein Unternehmen erst mühsam erwerben müsste.
Intelligente Lösungen sind gefragt Gerade hier zeigt sich, dass das Hosting von Big Data auch eine qualitative Seite hat. Es geht nicht einfach darum, immer mehr Systeme aufzutürmen, um damit die Datenflut aufzufangen. Gefragt sind vielmehr intelligente Lösungen, die für eine effizientere Nutzung der vorhandenen Technik sorgen, und zwar nicht nur auf System-, sondern auch auf Anwendungsebene.
So lässt sich das Datenaufkommen für gehostete E-Commerce-Lösungen drastisch reduzieren, ohne dafür die Leistungen einzuschränken: Die Verarbeitung großer Datenmengen muss bereits in der Architektur und in der Ablauflogik berücksichtigt werden.
Beispielsweise nutzen viele Online-Shops hochauflösende Fotos schon für die Artikelübersicht: Man hatte im Lauf der Zeit alte Bilder einfach durch neue ersetzt, der Ablauf wurde aber nicht an die neuen speicherhungrigen Bilder angepasst. Hier würde es genügen, reduzierte Bilder für die Übersicht einzusetzen und die hochauflösenden Bilder oder das Video für die vom Kunden tatsächlich angeklickten zu reservieren. Durch diese Optimierung müsste nicht auf die Multimedia-Inhalte verzichtet werden und für den Kunden könnte sogar eine Verbesserung erreicht werden, weil die Wartezeiten für das Nachladen der Bilder wegfallen.
Anforderungen an die Provider
Derartige Optimierungen für gehostete Big-Data-Anwendungen setzen natürlich voraus, dass der Provider nicht nur Hosting-Experte ist und über einen leistungsfähigen Maschinenpark verfügt. Er muss darüber hinaus sehr gut über die Geschäftsprozesse der Unternehmen Bescheid wissen.
Auch hier ist zu erkennen, dass sich der Schwerpunkt der Leistungen der Service-Provider von der reinen Bereitstellung von remote nutzbarer Hardware in Richtung eines umfassenden Lösungsangebots verschiebt.
Diethelm Siebuhr