Was ist ein Data Lake?

Die digitale Welt verdoppelt ihre Größe jedes Jahr und wird voraussichtlich bis 2020 44 Billionen Gigabytes erreichen. Bis zu 90 Prozent dieser Daten sind unstrukturiert oder semistrukturiert. Dies bringt eine zweifache Herausforderung mit sich: Organisationen müssen eine Möglichkeit finden, all diese Daten zu speichern, und die Kapazitäten bereitstellen, um diese schnell zu verarbeiten. Und genau hier kommen Data Lakes ins Spiel.

Was ist ein Data Lake?

Ein Data Lake ist ein zentrales Repository, das Big Data aus unterschiedlichen Quellen in einem rohen, granularen Format speichert. Es kann strukturierte, semistrukturierte oder unstrukturierte Daten aufnehmen. D. h. die Daten können in einem flexibleren Format zur späteren Nutzung aufbewahrt werden. Ein Data Lake verbindet Daten beim Speichern mit Identifiern und Matadaten-Tags, um einen schnelleren Zugriff zu gewährleisten.

Der Begriff „Data Lake“ wurde von James Dixon, CTO von Pentaho, geprägt. Der Terminus bezieht sich auf den ad hoc-Charakter der Daten in einem Data Lake und steht im Gegensatz zu den sauberen und verarbeiteten Daten in traditionellen Data Warehouse-Systemen.

Data Lakes werden normalerweise auf einem Cluster aus preiswerter und skalierbarer Commodity-Hardware konfiguriert. So können die Daten für den späteren Gebrauch in den Lake geladen werden, ohne dass Sie sich Gedanken über die Speicherkapazität machen müssen. Die Cluster können entweder lokal oder in der Cloud sein.

Laden Sie Data Lakes: Purposes, Practices, Patterns, and Platforms jetzt herunter.
HERUNTERLADEN

Data Lakes werden leicht mit Data Warehouses verwechselt, aber es gibt einige wesentliche Unterschiede, die manchen Organisationen große Vorteile bieten können. Dies gilt umso mehr, da Big Data und Big Data-Prozesse mehr und mehr von lokalen Standorten in die Cloud verlagert werden.

.

data lake-diagramm

.

Vorteile von Data Lakes

Data Lakes liegt ein Schema-on-Read genanntes Prinzip zugrunde. Das bedeutet, dass es kein vordefiniertes Schema gibt, in das die Daten vor dem Speichern gebracht werden müssen. Nur wenn die Daten während der Verarbeitung gelesen werden, können sie geparst und je nach Bedarf einem Schema angepasst werden. Dieses Feature spart viel Zeit, da kein Schema definiert werden muss. Auf diese Weise lassen sich Daten speichern wie sie sind, egal in welchem Format.

Data Scientists können mit Data Lakes schneller und mit einer höheren Genauigkeit Daten abrufen, vorbereiten und analysieren. Analyse-Experten bietet dieser riesige Pool an Daten, die in unterschiedlichen, weniger verbreiteten Formaten verfügbar sind, die einzigartige Chance, auf Daten zuzugreifen, die sich für unterschiedliche Use Cases wie Sentimentanalysen oder Betrugserkennung nutzen lassen.

Ansehen Architecting Your Customer 360 Data Lake for Today and Tomorrow jetzt herunter.
Jetzt ansehen

Data Lake vs. Data Warehouse

Data Lakes und Data Warehouses ähneln sich grundsätzlich, was Einsatzzweck und Ziel betrifft, sodass sie leicht verwechselt werden.

  • Bei beiden handelt es sich um Speicherrepositories, die unterschiedliche Datenspeicher in einer Organisation konsolidieren.
  • Beide dienen als zentralisierter Speicher, der Daten an unterschiedliche Anwendungen weitergibt.

Es gibt aber auch fundamentale Unterschiede, sodass beide Modelle für unterschiedliche Szenarien geeignet sind.

  • Schema-on-Read vs. Schema-on-Write – Das Schema eines Data Warehouses wird vor dem Speichern definiert und strukturiert (die Anwendung erfolgt beim Schreiben der Daten). Ein Data Lake dagegen hat kein vordefiniertes Schema, sodass Daten in ihrem nativen Format gespeichert werden können. In einem Data Warehouse findet die Datenaufbereitung normalerweise zum größten Teil vor der Verarbeitung statt. In einem Data Lake werden Daten erst aufbereitet, wenn sie tatsächlich benötigt werden.
    .
  • Komplexe vs. einfache Zugänglichkeit für Benutzer – Bei Data Lakes sind die Daten vor dem Speichern nicht in einer vereinfachten Form organisiert. Daher können häufig nur Experten, die sich mit den unterschiedlichen Datenarten und ihren Beziehungen auskennen, die enthaltenen Daten lesen.

    Data Warehouses dagegen sind aufgrund ihrer gut definierten und dokumentierten Schemas sowohl für technisch versierte Benutzer als auch für Anwender ohne spezielle technische Kenntnisse leicht zugänglich. Selbst neue Teammitglieder können schnell mit einem Warehouse arbeiten.
    .
  • Flexibilität vs. Rigidität – Mit Data Warehouses dauert es nicht nur lange, zuerst das Schema zu definieren, es sind auch beträchtliche Ressourcen nötig, um es später an veränderte Anforderungen anzupassen. Data Lakes dagegen lassen sich schnell an Veränderungen anpassen. Zudem sinkt der Speicherbedarf, da es einfacher ist, die Server in einem Data Lake-Cluster zu skalieren.

Weitere Informationen zur Unterscheidung und wie Sie herausfinden, welche Option am besten für Ihre Organisation passt, erhalten Sie unter „Data Lakes vs. Data Warehouses“. →

Data Lakes – in der Cloud oder lokal?

Traditionell werden Data Lakes lokal mit Speicher auf dem HDFS und Verarbeitung (YARN) auf Hadoop-Clustern implementiert. Hadoop ist skalierbar, preiswert und bietet dank seiner Datenlokalität (die Verarbeitung findet dort statt, wo die Daten liegen) eine gute Performance.

Doch mit dem Aufbau einer lokalen Infrastruktur sind einige Herausforderungen verbunden:

  • Platzbedarf – Sperrige Server nehmen Platz in Anspruch, was zu höheren Kosten führt.
  • Setup – Hardware zu erwerben und Datencenter einzurichten ist nicht unbedingt einfach und kann sich über Wochen oder Monate hinziehen.
  • Skalierbarkeit – Wenn die Speicherkapazität hochgefahren werden muss, kostet das aufgrund der erhöhten Platzanforderungen und der erforderlichen Kostenfreigaben durch Vorgesetzte Zeit und bindet Ressourcen.
  • Bedarfseinschätzung – Da sich Skalierbarkeit lokal nicht so leicht realisieren lässt, ist es wichtig, die Hardware-Anforderungen zu Beginn des Projekts korrekt abzuschätzen. Da Daten jeden Tag auf unsystematische Weise wachsen, ist dies nicht gerade einfach.
  • Kosten – Kostenschätzungen fallen erwiesenermaßen lokal höher aus als mit Cloud-Alternativen.

Mit Cloud-Data Lakes dagegen lassen sich diese Herausforderungen bewältigen. Data Lakes in der Cloud sind:

  • Einfacher und schneller zu starten. Statt einem von Anfang an groß angelegten Projekt können Nutzer mit der Cloud inkrementiell starten.
  • Kosteneffektiv dank einem Pay-as-you-use-Modell.
  • Einfacher zu skalieren, wenn der Bedarf zunimmt. Damit entfällt der Stress, Anforderungen abzuschätzen und Genehmigungen einzuholen.

Platzeinsparungen stellen weitere Kostenvorteile dar.

Erfahren Sie, wie BeachBody die Skalierbarkeit seiner Datenarchitektur sowie seines Personals mit einem Cloud-Data Lake verbesserte:

Herausforderungen mit Cloud-Data Lakes

Natürlich gibt es auch Herausforderungen beim Einsatz von Cloud-Data Lakes. Einige Organisationen möchten aufgrund von Sicherheitsrisiken keine vertraulichen und sensiblen Informationen in der Cloud speichern. Auch wenn die meisten Anbieter Cloud-basierter Data Lakes für Sicherheit einstehen und über die Jahre immer mehr Sicherheitsschichten implementiert haben, bleibt eine gewisse Unsicherheit aufgrund der Risiken durch Datendiebstahl.

Eine weitere praktische Herausforderung ist die Tatsache, dass einige Organisationen bereits ein Data Warehousing-System zum Speichern ihrer strukturierten Daten implementiert haben. Für sie wäre es sinnvoll, all diese Daten in die Cloud zu verlagern oder eine hybride Lösung mit einer gemeinsamen Verarbeitungsengine einzusetzen, die strukturierte Daten vom Warehouse und unstrukturierte Daten von der Cloud abruft.

Data Governance ist ein weiterer wichtiger Faktor. Ein Data Lake sollte nicht zu einem Datensumpf werden, durch den man sich kämpfen muss. Die Plattform von Talend sorgt dafür, dass Data Lakes sauber und zugänglich bleiben.

Data Lake-Architektur: Hadoop, AWS und Azure

Es ist wichtig, sich vor Augen zu führen, dass Data Lakes zwei Komponenten umfassen: Speicher und Verarbeitung. Beides kann lokal oder in der Cloud untergebracht sein. Dies führt zu mehreren möglichen Kombinationen bei der Konzeption einer Data Lake-Architektur.

Organisationen können ganz bei ihrer lokalen Infrastruktur bleiben, die gesamte Architektur in die Cloud verlagern, mehrere Clouds in Betracht ziehen oder auf ein hybrides Modell aus diesen Optionen setzen.

Es gibt hier keine Patentlösung. Je nach Anforderungen sind mehrere Optionen denkbar.

Data Lakes auf Hadoop

Hadoop wird am häufigsten mit Data Lakes in Verbindung gebracht.

Ein Hadoop-Cluster aus verteilten Servern löst das Problem, große Datenmengen zu speichern. Das Herzstück von Hadoop ist seine Speicherebene, HDFS (Hadoop Distributed File System), die Daten über mehrere Server hinweg speichert und repliziert. YARN (Yet Another Resource Negotiator) stellt den Resource Manager bereit, der entscheidet, wie die Ressourcen auf jedem Knoten eingeteilt werden. MapReduce ist das von Hadoop verwendete Programmiermodell, um Daten in kleinere Untereinheiten aufzuteilen und diese in seinen Serverclustern zu verarbeiten.

Abgesehen von diesen drei Kernkomponenten umfasst das Hadoop-Ökosystem weitere Tools wie Hive, Pig, Flume, Sqoop und Kafka, die bei der Aufnahme, Aufbereitung und Extraktion von Daten Unterstützung bieten. Hadoop-Data Lakes können lokal und in der Cloud mit Enterprise-Plattformen wie Cloudera und HortonWorks eingerichtet werden. Weitere Cloud-Data Lakes wie Azure bieten Funktionen, die auf die Hadoop-Architektur abgestimmt sind.

Stärken:

  • Den meisten IT-Experten bekannt
  • Weniger teuer dank Open Source
  • Verfügbarkeit zahlreicher ETL-Tools für die Integration mit Hadoop
  • Einfach zu skalieren
  • Schnellere Verarbeitung dank Datenlokalität

Laden Sie Hadoop and Data Lakes jetzt herunter.
HERUNTERLADEN

Data Lakes auf AWS

AWS verfügt über ein umfassendes Produktangebot für seine Data Lake-Lösung.

Amazon Simple Storage Service (Amazon S3) ist das Herzstück der Lösung und stellt die Speicherfunktion bereit. Mit den Datenaufnahmetools Kinesis Streams, Kinesis Firehose, Snowball und Direct Connect lassen sich massive Datenmengen in S3 übertragen. Es gibt auch einen Datenbank-Migrationsservice, der die Migration der bestehenden lokalen Daten in die Cloud unterstützt.

Neben S3 gibt es noch DynamoDB, eine latenzarme No-SQL-Datenbank sowie den Service Elastic Search, der einen vereinfachten Mechanismus zur Abfrage des Data Lakes bereitstellt. Die Cognito-Benutzerpools definieren die Benutzerauthentifizierung und den Zugriff auf den Data Lake. Services wie Security Token Service, Key Management Service, CloudWatch und CloudTrail gewährleisten die Sicherheit der Daten. Zur Verarbeitung und für Analysen sind Tools wie RedShift, QuickSight, EMR und maschinelles Lernen verfügbar.

Die zahlreichen Produktangebote von AWS gehen mit einer steilen Lernkurve einher. Trotzdem kommt die umfassende Funktionalität der Lösung sehr häufig in Business Intelligence-Anwendungen zum Einsatz.

Stärken:

  • Umfassende und funktionsreiche Produktsuite
  • Flexible Auswahl von Produkten entsprechend individueller Anforderungen
  • Niedrige Kosten
  • Strenge Sicherheits- und Compliance-Standards
  • Trennung von Verarbeitung und Speicher zur bedarfsgerechten Skalierung
  • Kollaboration mit APN(AWS Partner Network)-Firmen wie Talend sorgt für nahtloses AWS-Onboarding

Ansehen Architecting an Open Data Lake for the Enterprise jetzt herunter.
Jetzt ansehen

Data Lakes auf Azure

Azure ist ein Data Lake von Microsoft mit einer Speicher- und Analyse-Ebene; die Speicher-Ebene heißt Azure Data Lake Store (ADLS) und die Analyse-Ebene besteht aus zwei Komponenten: Azure Data Lake Analytics und HDInsight.

ADLS basiert auf dem HDFS-Standard und verfügt über unbegrenzte Speicherkapazität. Damit lassen sich Billionen von Dateien speichern, die jeweils größer als ein Petabyte sein können. Der Azure Data Lake Store ist sicher, skalierbar und ermöglicht es, Daten in jedem beliebigen Format zu speichern. Er unterstützt alle Anwendungen, die den HDFS-Standard nutzen. Dies erleichtert die Migration bestehender Daten sowie den einfachen Plug-and-play-Einsatz anderer Datenverarbeitungsengines.

HDInsight ist ein Cloud-basierter Data Lake-Analyseservice. Aufgesetzt auf Hadoop YARN ermöglicht HDInsight den Zugriff auf Daten mit Tools wie Spark, Hive, Kafka und Storm. Dank seiner Integration mit Azure Active Directory unterstützt der Service Enterprise-Class-Sicherheit.

Azure Data Lake Analytics ist ebenfalls ein Analyseservice, allerdings mit einem anderen Ansatz. Statt mit Tools wie Hive zu arbeiten, verwendet der Service die Sprache U-SQL, eine Kombination aus SQL und C#, um auf Daten zuzugreifen. Er ist ideal für die Batchverarbeitung großer Datenmengen, da er eine höhere Geschwindigkeit zu geringeren Kosten bietet (es fallen nur für die verwendeten Jobs Kosten an).

Stärken:

  • Die Unterbringung von Speicher und Berechnung in der Cloud sorgt für eine einfachere Verwaltung.
  • Starke Analyseservices mit leistungsfähigen Funktionen.
  • Einfache Migration von einem bestehendem Hadoop-Cluster aus.
  • Viele Big Data-Experten sind mit Hadoop und seinen Tools vertraut, daher ist es einfach, qualifizierte Fachkräfte zu finden.
  • Die Integration mit Active Directory sorgt dafür, dass keine separate Sicherheitsverwaltung erforderlich ist.

Zusätzliche Data Lake-Ressourcen

Wenn Sie weitere Informationen zur Funktionsweise von Data Lakes wünschen oder mehr über die ersten Schritte wissen möchten, werfen Sie einen Blick auf diese Ressourcen:

.

Erste Schritte mit Data Lakes

Mit ihrer hohen Geschwindigkeit (Velocity) und großen Vielfalt (Variety) begeistern Data Lakes BI-Nutzer auf der ganzen Welt. Jetzt gibt es die Möglichkeit, verarbeitete Daten mit subjektiven Informationen aus dem Internet zu kombinieren.

Mit Data Lakes ist es möglich, maschinelle Daten wie Röntgenaufnahmen und Kernspintomografien auf kausale Krankheitsmuster hin zu durchsuchen. In IoT-Anwendungen können riesige Mengen an Sensordaten unfassbar schnell verarbeitet werden. Und Einzelhändler können eine Fülle von Daten über den Benutzer nutzen, um durchgängige Omnichannel-Erfahrungen zu bieten.

Data Lakes sind nicht nur in erweiterten prädiktiven Analyseanwendungen nützlich, sondern auch bei der normalen Berichterstattung in Organisationen, besonders, wenn unterschiedliche Datenformate vorliegen.

Die Frage ist nicht mehr, ob ein Data Lake gebraucht wird, sondern auf welche Lösung Ihr Unternehmen setzt und wie diese implementiert wird. Laden Sie Talend Big Data Integration herunter und starten Sie noch heute.

| Zuletzt aktualisiert: January 28th, 2019