Was ist ETL (Extraktion, Transformation, Laden)?

Beim ETL-Prozess (ETL = Extraktion, Transformation, Laden) geht es darum, Daten aus einer unbegrenzten Anzahl von Quellen zu erfassen, zu organisieren und in einem einzigen Repository zu zentralisieren.

In den meisten Unternehmen sind potentiell nützliche Daten nicht zugänglich; eine Umfrage hat ergeben, dass zwei Drittel der Unternehmen entweder nur wenig handfeste oder gar keine Vorteile aus ihren Daten ziehen. Meist befinden sich diese Daten in isolierten Silos, veralteten Systemen oder selten genutzten Anwendungen. ETL macht diese Daten durch Extrahieren aus mehreren Quellen zugänglich (wie im Diagramm oben gezeigt) und ermöglicht es, die Daten zu bereinigen, zu transformieren und schließlich wertvolle Erkenntnisse daraus zu gewinnen.

Manchmal wird ETL durch Handcodierung in SQL oder Java durchgeführt, aber es gibt Tools, die diesen Prozess vereinfachen. In diesem Artikel werden ETL-Anwendungsfälle und die Vorteile von ETL-Tools gegenüber Handcodierung aufgezeigt. Zudem erläutern wir, worauf Kunden bei ETL-Tools achten sollten.

Ansehen Getting Started with Data Integration jetzt herunter.
Jetzt ansehen

Wofür wird ETL eingesetzt?

Daten spielen eine wichtige Rolle für fast alle Geschäftsvorgänge; doch damit sie einen Nutzen haben, müssen sie bewegt und aufbereitet werden. Daher brauchen Sie ETL-Prozesse. Zu den Einsatzgebieten von ETL zählen:

  • Datenmigration von einer Anwendung zur anderen
  • Datenreplikation für Backups oder Redundanzanalysen
  • Operative Prozesse wie Datenmigration aus einem CRM-System in einen ODS (Operational Data Store), um die Daten zu optimieren oder anzureichen und sie dann ins CRM-System zurückzuspielen
  • Datenspeicherung in einem Data Warehouse, um sie für BI-Zwecke aufzunehmen, zu sortieren und zu transformieren
  • Migration von Anwendungen von lokalen Standorten in Cloud-, Hybrid Cloud- oder Multi-Cloud-Infrastrukturen
  • Synchronisierung wichtiger Systeme

So funktionieren ETL- und ELT-Prozesse

ETL umfasst normalerweise drei Schritte. Immer häufiger werden Daten von ihren Quellorten extrahiert und dann in ein Ziel-Data Warehouse geladen oder nach dem Laden transformiert. Dieser Prozess wird ELT genannt, nicht ETL. Erfahren Sie mehr über ETL vs. ELT.

Hier die drei ETL-Schritte im Detail:

 

Schritt 1: Extraktion

Das Ziel von ETL besteht darin, bereinigte, zugängliche Daten zu generieren, die für Analysen oder Geschäftsoperationen eingesetzt werden können. Die Rohdaten müssen dazu von verschiedene

n Quellen extrahiert werden, darunter:

  • Bestehende Datenbanken
  • Aktivitätsprotokolle wie Netzwerkverkehrsberichte, Fehlerberichte usw.
  • Anwendungsperformance und Anomalien
  • Sicherheitsrelevante Ereignisse
  • Andere Transaktionsaktivitäten, die zu Compliance-Zwecken gemeldet werden müssen

Die extrahierten Daten werden manchmal in einem Data Lake oder Data Warehouse abgelegt.

 

Schritt 2: Transformation

Die Transformation ist der kritischste Schritt im ETL-Prozess. Eine zentrale Bedeutung spielt hierbei die Anwendung von Unternehmensregeln auf die Daten, um Berichtsanforderungen zu erfüllen. Bei der Transformation werden die Rohdaten in die passenden Berichtsformate gebracht. Wenn keine Bereinigung der Daten stattfindet, ist es schwieriger, die Geschäftsregeln für das Reporting anzuwenden.

Die Transformation basiert auf einer Reihe von Regeln und Richtlinien, die Sie im Vorfeld definieren. Die Standards zur Gewährleistung der Datenqualität und Zugänglichkeit in dieser Phase sollten Folgendes umfassen:

  • Standardisierung: Festlegung, um welche Daten es geht, wie sie formatiert und gespeichert werden sowie andere grundlegende Aspekte, die einen unmittelbaren Einfluss auf alle nachfolgenden Schritte haben.
  • Deduplizierung: Meldung von Duplikaten an Data Stewards; Ausschließen und/oder Löschen redundanter Daten.
  • Prüfung: Durchführung automatisierter Checks, um ähnliche Informationen wie Transaktionszeiten und Zugriffsprotokolle zu vergleichen. Durch Prüfungen lassen sich unbrauchbare Daten weiter aussortieren und Anomalien in Ihren Systemen, Anwendungen oder Daten identifizieren.
  • Sortierung: Maximale Effizienz in Data Warehouses durch Gruppieren und Speichern von Items wie Rohdaten, Audio- und Multimediadateien und andere Objekte in entsprechenden Kategorien. Transformationsregeln legen fest, wie jeder Datenteil klassifiziert wird und wohin er als Nächstes verlagert wird. Häufig wird der ETL-Prozess zum Aggregieren von Tabellen für Übersichtsreports verwendet. Dazu müssen die Daten sortiert und anschließend aggregiert werden.
  • Andere Aufgaben, die Sie definieren und automatisch ausführen können.

Diese Transformationsschritte reduzieren die anfängliche Menge an unbrauchbarem Material und wandeln die Informationen in ein Datenprodukt um, das Sie für den letzten ETL-Schritt (Laden) nutzen können.

 

Schritt 3: Laden

Die letzte Phase typischer ETL-Prozesse ist das Laden dieser extrahierten und transformierten Daten in ihr neues „Zuhause“. Es gibt zwei gängige Arten, um Daten in ein Data Warehouse zu laden: Full Load und Incremental Load.

Die Umsetzung eines einzelnen ETL-Prozesses oder einer geplanten Reihe von Prozessen lässt sich durch Ausführen einer Aufgabe über eine Befehlszeile oder GUI-Oberfläche realisieren. Dabei sollte man aber auf bestimmte Dinge achten. Die Verwaltung von Ausnahmen beispielsweise kann sehr umständlich sein. Häufig können Daten nicht extrahiert werden, wenn ein oder mehrere Systeme ausgefallen sind. Bad Data in einem System können Daten beeinträchtigen, die von einem anderen System extrahiert werden. Daher kommt es hier besonders auf eine effiziente Überwachung und Fehlerbehebung an.

Erfahren sie mehr über die ersten Schritte mit den Datenintegrationstools von Talend.

Moderne Datenpraktiken: ETL vs. ELT

ELT hat sich für die Transformation der Daten von der Quelle bis zu einem Business Intelligence-tauglichen Zustand bewährt. Doch dank moderner, Cloud-basierter Infrastrukturtechnologien können Systeme jetzt große Datenspeicher und skalierbare Rechenleistung zu niedrigen Kosten unterstützen. Daher wird es immer attraktiver, die extrahierten Rohdaten in immer größeren Datenpools mit extrem schneller Rechenleistung zu lagern und zu pflegen.

In gewisser Weise ist ELT der bevorzugte Ansatz für das Datenmanagement, da hierbei alle Rohdaten so lange aufbewahrt werden können, bis sie einsatzbereit sind. Dies macht es einfach, sich ausschließlich auf das Extrahieren und Laden von Daten zu fokussieren. Dabei darf jedoch die Datentransformation mit ihren zahlreichen Vorteilen nicht vergessen werden:

  • Datenaufbereitung für das maschinelle Lernen, um die Genauigkeit von Algorithmen erheblich zu verbessern
  • Datenbereinigung zur Verbesserung der Datenqualität
  • Datendeduplizierung und -abgleich
  • Standardisierung von Datenwerten

Selbst in einer Data Lake-basierten Welt spielt die Datentransformation eine wichtige Rolle, um möglichst viel aus Unternehmensdaten herauszuholen.

 

ETL-Tools vs. Handcodierung von ETL-Prozessen

Viele IT-Experten fragen sich, ob Handcodierung nicht besser als die Investition in ein weiteres Tool wäre. Die meisten ETL-Funktionen können von Hand programmiert werden, aber in den meisten Fällen sind ETL-Tools langfristig skalierbarer und billiger.

Manuelles Programmieren ist mit zahlreichen Herausforderungen verbunden. Handgeschriebenen Code zu verwalten, zu unterstützen und wiederzuverwenden ist komplex. Für Entwickler kann es schwierig sein, den Code von Kollegen zu erlernen, geschweige denn wiederzuverwenden. ETL-Tools dagegen stellen den Datenfluss visuell dar, was viel einfacher zu verstehen ist. Bei der Handcodierung ziehen es viele Entwickler vor, den Code ihrer Kollegen neu zu schreiben, weil das einfacher ist, als sich in fremden Code einzuarbeiten. Daher sind die Wartungskosten häufig auch doppelt so hoch. Aus dem gleichen Grund ist es deutlich unwahrscheinlicher, dass Entwickler den Code ihrer Kollegen wiederverwenden.

Zudem erhalten Sie mit Datenintegrationstools automatisch erweiterte Features wie integrierte Parallelisierung, Überwachung und Failover-Schutz. Wenn Sie diese Features mit handgeschriebenem Code nutzen möchten, bräuchten Sie sehr erfahrene Programmierer, um alle erforderlichen Techniken zu erlernen. Und schließlich behindert ein Datenintegrationsansatz, der auf selbstgeschriebenem Code basiert, Skalierbarkeit und Innovation, weil es nur wenig Entwickler gibt, die über die nötigen Kenntnisse für handcodierte Integrationen verfügen. Zwar fallen keine Investitionskosten an, wenn Sie Ihr ETL-Tool selbst entwickeln, diese Ersparnisse werden aber von den deutlich höheren Wartungskosten schnell wieder zunichte gemacht.

Laden Sie Talend Data Integration Cookbook jetzt herunter.
HERUNTERLADEN

ETL und Migration in die Cloud

Cloud-Kompatibilität hat sich für viele Organisationen bewährt. Zahlreiche Unternehmen müssen bei ihrer Migration in die Cloud ihre vorhandenen Datenintegrations- und ETL-Tools erneut überprüfen, da viele traditionelle Tools nicht gut in der Cloud funktionieren. Doch nicht nur das. Viele Unternehmen haben mehrere Clouds oder möchten den Cloud-Anbieter (z. B. AWS, Azure oder Google Cloud Platform) wechseln.

ETL-Tools sollten mit jedem Cloud-Anbieter funktionieren und sich bei einem Anbieterwechsel leicht migrieren lassen. Schließlich möchten Sie nicht Ihre Datenpipelines neu schreiben, wenn Sie eine andere Cloud-Plattform nutzen. Stattdessen sollten Datenpipelines portabel sein, damit Sie problemlos zwischen unterschiedlichen Clouds, Speichertechnologien, Datenverarbeitungstechnologien und Cloud-Datenbanken wechseln können.

 

Darauf sollten Sie bei einem ETL-Tool achten

ETL-Tools können den ETL-Prozess enorm vereinfachen. Ihr Tool sollte dabei idealerweise die folgenden Features bieten:

  • Viele Konnektoren: Es gibt viele unterschiedlichen Systeme und Anwendungen weltweit. Je mehr vorgefertigte Konnektoren Ihr ETL-Tool mitbringt, desto mehr Zeit spart Ihr Team.
  • Open Source: Open Source-Architekturen bieten meist mehr Flexibilität und binden Sie in der Regel nicht an einen Anbieter.
  • Portabilität: Ein wichtiger Punkt, weil immer mehr Unternehmen auf hybride Cloud-Modelle setzen, um Datenintegrationen nur einmal zu erstellen und sie dann von überall auszuführen.
  • Benutzerfreundlichkeit: ETL-Tools sollten einfach zu erlernen und zu benutzen sein. Darüber hinaus sollten sie eine Benutzeroberfläche bieten, mit der Sie ganz einfach Ihre Datenpipelines visualisieren können.
  • Ein transparentes Preismodell: Ihr Anbieter sollte auf keinen Fall einen Aufpreis verlangen, wenn Sie die Anzahl Ihrer Konnektoren oder das Datenvolumen erhöhen.
  • Cloud-Kompatibilität: Ihr ETL-Tool sollte nativ in einer Single-Cloud, Multi-Cloud- oder Hybrid Cloud-Umgebung funktionieren.

ETL mit Talend: Talend Data Integration vs. Talend Open Source Data Integration

Talend bietet robuste Datenintegrationstools für ETL-Prozesse. Wenn Sie Talend für Ihre Datenintegrationsprojekte einsetzen, können Ihre Benutzer Datenintegrationsjobs 10 Mal schneller als mit Handcodierung und zu einem Fünftel der Kosten anderer Anbieter durchführen.

Es gibt zwei Versionen der Talend-Datenintegrationssoftware: Talend Open Source Data Integration und Talend Data Management Platform. Einen Vergleich zwischen den beiden Versionen finden Sie hier. Talend Open Source Data Integration ist leistungsstark und lässt sich für viele Anwendungsfälle einsetzen. Es eignet sich vor allem für einzelne Entwickler, die Datenpipelines erstellen und ausführen möchten.

Kunden, die größere Teams zusammenstellen, mehr Kollaboration und Support der Enterprise-Klasse wünschen und ihre Produktivität steigern möchten, sind mit der kommerziellen Edition besser beraten. Die Talend Data Management-Plattform bietet zusätzliche Features wie Verwaltungs- und Überwachungsfunktionen, direkt in der Plattform integrierte Datenqualität und zusätzliche Unterstützung im Web sowie per E-Mail und Telefon. Beide Versionen bieten native Multi-Cloud-Funktionalität, Skalierbarkeit für die unterschiedlichsten Projekte und 900 integrierte Konnektoren.

ETL ist ein wichtiger Prozess, um Daten im Unternehmen nutzbar zu machen. Mit den Tools von Talend gehen ETL-Prozesse ganz einfach vor der Hand. Probieren Sie Talend Open Source Data Integration einfach aus. Sie werden stauen, wie viele Daten Sie effektiv für Ihr Geschäft nutzen können, ohne Abstriche bei der Geschwindigkeit und Produktivität zu machen.

| Zuletzt aktualisiert: August 12th, 2019