ETL für Business Intelligence und Data Warehousing
Die ETL (Extraktion, Transformation und Laden) Prozesse sind die am wichtigsten und teuersten Bestandteile
einer Business Intelligence Umgebung. Trotz eines Ablaufs im Hintergrund, sorgen ETL-Prozesse für den
notwendigen Abgriff von operativen Daten und die Aufbereitung für Analyse- und Reportingtools.
Die Fehlerfreiheit und Aktualität der gesamten BI Plattform beruht jedoch auf den ETL-Prozessen.
Für weitere Informationen zu Talend´s ETL-Lösungen.
Was ist ETL?
Prozesse für die Extraktion, die Transformation und das Laden erfordern unterschiedliche
Schritte. Ziel ist die Überführung von bestimmten Daten aus produktiven Umgebungen in Business Intelligence
Systeme:
-
Extraktion von Daten aus produktiven Anwendungen und Datenbanken (ERP, CRM, RDBMS, Files, etc.)
- Transformation der Daten um eine einheitliche Sicht über die Quellsysteme zu erhalten, Berechnungen und
Datenbereinigung durchzuführen, mit externen Lookup-Informationen anzureichern und schlussendlich die Überführung in
das entsprechende Zielformat(dritte Normalform, Star-/Snowflake-Schema, Slowly Changing Dimensions, etc.).
- Laden der entsprechenden Daten in unterschiedliche BI Anwendungen: Data Warehouses oder unternehmensweite Data Warehouses, Data Marts,
Online Analytical Processing (OLAP) Applikationen oder “Cubes/Würfel”, etc.
Die Generierungszeiten einzelner ETL-Prozesse variiert von einzelnen Batch-Ausführungen(einmal in der Woche oder im Monat, oft täglich),
bis hin zu Near-Real-Time Aktualisierungen(stündlich, alle paar Minuten, etc.).
Anforderungen an ETL
Es werden zahlreiche Anforderungen an einen effizienten und stabilen ETL-Prozess gestellt.
- Heutige Datenvolumen wachsen exponentiell und heutige ETL-Prozesse müssen in der Lage sein,
diese Datenmengen auf unterster Datensatzebene(Anzahl verkaufter Produkte, Telefongespräche, Banktransaktionen)
zu verarbeiten. Einige BI-Systeme werden hauptsächlich inkrementell aktualisiert, während Andere immer wieder
eine komplette Befüllung benötigen.
-
Während Informationssysteme einen hohen komplexen Grad erreichen, wachsen Unterschiede der Quellen kontinuierlich mit.
ETL Prozesse benötigen weitreichende Konnektivitäten zu Standardapplikationen (ERP, CRM, etc.), Datenbanken,Mainframes,
Dateien, Web Services, etc.
-
Business Intelligence Strukturen und Applikationen beinhalten in der Regel Data Warehouses, Data Marts, OLAP Anwendungen - für Analysen,
Reporting, Dashboarding, Scorecarding, etc. Alle Anwendungen haben verschiedene Zielstrukturen mit
unterschiedlichen Transformationsregeln und abweichenden Verarbeitungszeiten.
-
Transformationen innerhalb der ETL-Prozesse können äußerst komplex sein. Daten müssen aggrigiert,
geprüft, berechnet und statistisch verarbeitet werden. BI-spezifische Transformationen benötigen beispielsweise noch
zusätzliche Verfahren wie Slowly Changing Dimensions.
- Da BI immer mehr in Richtung zeitnah tendiert, müssen Data Warehouses und Data Marts immer häufiger und
in immer kürzer werdenden Zeitfenstern aktualisiert werden.
Open Source Datenintegration's Lösungen für ETL
Talend´s Datenintegrations-Lösungen wurden für ein unternehmensweites ETL optimiert.
Folgende Aspekte sind im Hinblick auf Design, Entwicklung und Wartbarkeit der ETL-Prozesse besonders wichtig:
- Geschäftsorientierte Prozessmodellierung um Fachanwender mit einzubeziehen und
die richtige Kommunikation zwischen IT und Abteilungen sicherzustellen.
- Graphische Entwicklungsumgebung welche die Produktivität steigert und die Wartbarkeit vereinfacht.
- Hoch skalierbar und schnelle Verarbeitung mit der Möglichkeit Grid-Verfahren auf Standardhardware
durchzuführen und nur eine Lösung die eine gleichzeitige Verwendung von ETL und ELT erlaubt.
- Umfangreiche Konnektivität für eine einfache Anbindung von allen jetzigen und zukünftigen Systeme
und den Zugriff auf alle relevanten Produktionsdaten.
- Bereits jetzt enthaltene weiterreichende Komponenten für ETL mit String Funktionen, Slowly Changing Dimensions,
automatischer Lookup-Steuerung, Bulk-Loads, etc.