ETL Werkzeuge für BI und Data Warehousing

ETL (Extraktion, Transformation und Laden) Prozesse sind die wichtigsten und teuersten Bestandteile einer Business Intelligence Umgebung. Trotz eines Ablaufs im Hintergrund sorgen ETL Prozesse für den notwendigen Abgriff von operativen Daten und die Aufbereitung für Analyse- und Reportingtools. Die Fehlerfreiheit und Aktualität der gesamten BI Plattform beruht jedoch auf den ETL Prozessen. Weitere Informationen zu Talends ETL-Lösungen.

Was ist ETL?

Prozesse für die Extraktion, die Transformation und das Laden erfordern unterschiedliche Schritte. Ziel ist es bestimmte Daten aus produktiven Umgebungen in Business Intelligence Systeme einzubringen:

  • Extraktion von Daten aus produktiven Anwendungen und Datenbanken (ERP, CRM, RDBMS, Files, etc.)
  • Transformation der Daten um eine einheitliche Sicht über die Quellsysteme zu erhalten, Berechnungen und Datenbereinigung durchzuführen, mit externen Lookup-Informationen anzureichern und schlussendlich die Überführung in das entsprechende Zielformat (dritte Normalform, Star-/ Snowflake-Schema, Slowly Changing Dimensions, etc.).
  • Laden der entsprechenden Daten in unterschiedliche BI Anwendungen: Data Warehouses oder unternehmensweite Data Warehouses, Data Marts, Online Analytical Processing (OLAP) Applikationen oder “Cubes/Würfel”, etc.

Die Generierungszeit einzelner ETL-Prozesse variiert von einzelnen Batch-Ausführungen (einmal in der Woche oder im Monat, oft täglich), bis hin zu Near-Real-Time Aktualisierungen (stündlich, alle paar Minuten, etc.).

Anforderungen an ETL

Es werden zahlreiche Anforderungen an einen effizienten und stabilen ETL Prozess gestellt.

  • Heutige Datenvolumen wachsen exponentiell und ETL Prozesse müssen in der Lage sein, diese Datenmengen auf unterster Datensatzebene (Anzahl verkaufter Produkte, Telefongespräche, Banktransaktionen) zu verarbeiten. Einige BI-Systeme werden hauptsächlich inkrementell aktualisiert, während andere immer wieder eine komplette Befüllung benötigen.
  • Während Informationssysteme einen hohen komplexen Grad erreichen, wachsen Unterschiede der Quellen kontinuierlich mit. ETL Prozesse benötigen weitreichende Konnektivitäten zu Standardapplikationen (ERP, CRM, etc.), Datenbanken, Mainframes, Dateien, Web Services, etc.
  • Business Intelligence Strukturen und Applikationen beinhalten in der Regel Data Warehouses, Data Marts, OLAP Anwendungen - für Analysen, Reporting, Dashboarding, Scorecarding etc. Alle Anwendungen verschiedene Zielstrukturen mit unterschiedlichen Transformationsregeln und abweichenden Verarbeitungszeiten.
  • Transformationen innerhalb der ETL-Prozesse können äußerst komplex sein. Daten müssen aggregiert, geprüft, berechnet und statistisch verarbeitet werden. BI-spezifische Transformationen benötigen beispielsweise noch zusätzliche Verfahren wie Slowly Changing Dimensions.
  • Da BI immer mehr in Richtung zeitnah tendiert, müssen Data Warehouses und Data Marts immer häufiger und in immer kürzer werdenden Zeitfenstern aktualisiert werden.

Open Source Datenintegration's Lösungen für ETL

Talends Datenintegrations-Lösungen wurden für ein unternehmensweites ETL optimiert. Folgende Aspekte sind im Hinblick auf Design, Entwicklung und Wartung der ETL-Prozesse besonders wichtig:

  • Geschäftsorientierte Prozessmodellierung, um Fachanwender mit einzubeziehen und die richtige Kommunikation zwischen IT und Abteilungen sicherzustellen.
  • Graphische Entwicklungsumgebung, welche die Produktivität steigert und die Wartung vereinfacht.
  • Hoch skalierbar und schnelle Verarbeitung mit der Möglichkeit Grid Verfahren auf Standardhardware durchzuführen und nur eine Lösung die eine gleichzeitige Verwendung von ETL und ELT erlaubt.
  • Umfangreiche Konnektivität für eine einfache Anbindung von allen jetzigen und zukünftigen Systemen und den Zugriff auf alle relevanten Produktionsdaten.
  • Bereits jetzt enthaltene weiterreichende Komponenten für ETL mit String Funktionen, Slowly Changing Dimensions, automatischer Lookup-Steuerung, Bulk-Loads, etc.