Untersuchung der Migration einer MySQL basierten Monitoring & Data-Warehouse Lösung nach Hadoop

34,99 €*

Nach dem Kauf zum Download bereit Ein Downloadlink ist wenige Minuten nach dem Kauf im eigenen Benutzerprofil verfügbar.

ISBN/EAN: 9783656431046
Masterarbeit aus dem Jahr 2012 im Fachbereich Informatik - Angewandte Informatik, Note: 1.0, Hochschule für Technik und Wirtschaft Berlin, Sprache: Deutsch, Abstract: Die escape GmbH betreibt ein MySQL basiertes Dataware-House in das Daten aus verschiedenen Webpräsenzen fließen, um dort ausgewertet zu werden. Nach Jahren des erfolgreichen Betriebs nimmt mit der ständig steigenden Menge an gespeicherten Daten die Leistung des Systems allerdings ab. Die Laufzeiten für Auswertungen steigen und die Agilität sinkt. Kleine Optimierungen und Veränderungen des Systems können das Unbrauchbarwerden hinauszögern, als aber aus Gründen der Leistung auf einen Teil der Abfragen verzichtet werden muss, wird schließlich klar, dass nur eine grundlegende Veränderung des Systems den langfristigen Betrieb sicherstellen kann. Aus diesem Grund wurde nach Technologien gesucht, deren Fähigkeiten die Leistung des bestehenden Dataware-Houses verbessern können. Dies führte zu Hadoop [Fouc][Whi10a], einem Open Source Framework, welches die Verarbeitung von riesigen Datenmengen in einem Cluster erlaubt. Diese Arbeit untersucht, wie Komponenten des bisherigen Systems durch Dienste von Hadoop ersetzt werden können. Sie wertet die Möglichkeiten zur Strukturierung von Daten in einer spaltenbasierten Datenbank aus, evaluiert in einem Benchmark, wie sich die Zeit von Abfragen im Verhältnis zu einer stetig steigenden Datenmenge verhält und analysiert detailliert den Ressourcenverbrauch des Clusters und dessen Knoten. Die Implementierung zeigt, dass sich die spaltenbasierten Datenbank HBase sehr gut zum Speichern von einer sehr großen Menge an semistrukturierten Daten eignet und die Dataware-House Komponente Hive durch die Unterstützung eines SQL ähnlichen Syntax das Erstellen von Abfragen komfortabel ermöglicht. Die Literatur beschreibt, dass HBase automatisch linear mit dem Hinzufügen von neuen Knoten skaliert. Der durchgeführte Benchmark zeigt, dass die Ausführungs-Zeit der getesteten Abfragen fast genau linear zur Datenmenge steigt, der Ressourcenverbrauch nur gering wächst und die Last im Cluster gleichmäßig verteilt wird. Dies lässt die Schlussfolgerung zu, dass sich Hadoop gut zum Betrieb einer Dataware-House Lösung eignet.
Autor: Jonas Kress
EAN: 9783656431046
eBook Format: ePUB/PDF
Sprache: Deutsch
Produktart: eBook
Veröffentlichungsdatum: 27.05.2013
Kategorie:
Schlagworte: Big Data Cluster Data Mining Data Warehouse ETL Ganglia HBase HQL Hadoop Hive MapReduce MySQL NoSQL PHP SQL Thrift

0 von 0 Bewertungen

Geben Sie eine Bewertung ab!

Teilen Sie Ihre Erfahrungen mit dem Produkt mit anderen Kunden.


shop display image

Möchten Sie lieber vor Ort einkaufen?

Haben Sie weiterführende Fragen zu diesem Buch oder anderen Produkten? Oder möchten Sie einfach doch lieber in der Buchhandlung stöbern? Wir sind gern persönlich für Sie da und beraten Sie auch telefonisch.

Bergische Buchhandlung R. Schmitz
Wetterauer Str. 6
42897 Remscheid-Lennep
Telefon: 02191/668255

Mo – Fr10:00 – 18:00 UhrSa09:00 – 13:00 Uhr