Warum ELT-Tools den ETL-Markt aufmischen

Studien zufolge werden ungefähr 50 Prozent aller Geschäftsdaten in der Cloud gespeichert – ein eindeutiger Hinweis auf die Bedeutung externer Datenquellen für moderne Unternehmen. Organisationen brauchen moderne Tools, um mit den heutigen beschleunigten Geschäftsabläufen Schritt halten und Daten zeitnah verarbeiten und integrieren zu können. Die besten ELT-Tools (Extract, Load and Transform – Extrahieren, Laden und Transformieren) eignen sich für diese Workloads und etablieren sich zunehmend in derData Warehouse-Welt als kosteneffektive, effiziente und hochgradig leistungsfähige Möglichkeit zur Integration externer und interner Daten.

Volumen, Vielfalt und Geschwindigkeit von Big-Data-Quellen lassen konventionelle, für internes, relationales Data Warehousing entworfene ETL-Tools (Extract, Transform and Load – Extrahieren, Transformieren und Laden) oft an die Grenzen ihrer Leistungsfähigkeit stoßen. Daher setzen viele Organisationen zunehmend auf ELT-Tools. In diesem Artikel erklären wir die Unterschiede zwischen ETL- und ELT-Tools und gehen darauf ein, wie ELT-Tools das Data Warehousing verbessern und die Zukunft der Datenintegration bestimmen.

Laden Sie Cloud Data Warehouse Trends for 2019 jetzt herunter.
HERUNTERLADEN

ELT vs ETL: Worin liegt der Unterschied?

ELT bezeichnet den Vorgang, wie Rohdaten aus der ursprünglichen Datenquelle (Twitter-Feeds, ERP, CRM usw.) extrahiert und in Zielsysteme wie Data Warehouses oder Data Lakes übertragen werden. Im Gegensatz zu anderen Ansätzen transformiert ELT Daten erst innerhalb des Zielsystems und reduziert damit die Anzahl physischer Infrastruktur- und Zwischenschichten.

ELT-Tools lassen sich auch als eine Weiterentwicklung traditioneller ETL-Methoden betrachten. Bei ETL-Tools handelt es sich um eigenständige Plattformen, die zwischen Quell- und Zielsystemen angesiedelt sind. Der wesentliche Unterschied zwischen ETL- und ELT-Tools besteht darin, dass ETL Daten vor dem Übertragen in die Zielsysteme transformiert, während dies bei ELT innerhalb der Systeme selbst geschieht. Dieser Unterschied ist für viele nachgelagerte Prozesse von wesentlicher Bedeutung und beeinflusst nachfolgende Systeme.

Infrastruktur und Ressourcen

ETL-Tools sind als dedizierte Plattformen zwischen der Extraktion von Daten und dem Laden in die Ziel-Repositories angesiedelt. Organisationen müssen diese Tools erwerben und warten, um Daten in Zielsysteme integrieren zu können. Bei ELT-Tools entfällt dagegen der Zwischenschritt vor dem Laden von Daten in die Zielsysteme. Sie benötigen daher weniger physische Infrastruktur und dedizierte Ressourcen, weil die Transformation von der Zielsystem-Engine durchgeführt wird – und nicht von den Engines innerhalb des ETL-Tools.

Data Staging

ETL-Tools sind für den Data-Staging-Prozess zuständig, bei dem Daten bereinigt und für die Transformation aufbereitet werden. Bei ELT findet dieser Prozess statt, nachdem Daten in Data Warehouses, Data Lakes oder Cloud-Datenspeicher übertragen wurden. Auf diese Weise erreicht man eine höhere Effizienz und geringere Latenzzeiten. Die besten ELT-Tools stellen daher geringere Ansprüche an die Ursprungsquellen und sind nicht auf die Zwischenschritte von ETL angewiesen, weil der Großteil der Datenverarbeitung im Zielsystem stattfindet.

Performance

ELT-Tools sind ETL-Tools hinsichtlich der Performance wesentlich überlegen, insbesondere bei großen Datenmengen. Im Petabyte-Bereich können ETL-Tools schnell zum Flaschenhals werden, weil sie auf eigene Server und Engines zur Transformation der Daten angewiesen sind. Hinzu kommt, dass Daten aus Big-Data-Quellen häufig nur wenig oder gar nicht strukturiert sind, was Transformationen noch komplexer macht. Durch ETL verursachte Engstellen können die Latenzzeiten beim Zugriff auf und der Analyse von Daten in Data Warehouses wesentlich erhöhen.

Time to Value

ELT-Tools transformieren Daten innerhalb der Zielsysteme, um eine schnellere Analyse, eine schnellere Reaktion sowie eine kürzere Time to Value zu erreichen. Data Scientists und professionelle Geschäftsanalysten können mit nur minimalem Programmieraufwand Schema-on-Read-Optionen implementieren, um Daten schnell zu transformieren und maschinelles Lernen zur Analyse einzusetzen. ETL-Tools dagegen werden durch manuelle Programmierarbeiten, die vor der Analyse zur Anpassung aller Daten an das einheitliche Schema eines Data Warehouse nötig sind, deutlich ausgebremst.

Der Wechsel von ETL hin zu ELT ist eine natürliche Folge des Big-Data-Zeitalters. Herkömmliche ETL-Tools wurden für konventionelles, relationales Data Warehousing entwickelt. Damals stammten die Daten überwiegend aus internen Systemen und waren bereits strukturiert. Die speziellen Rechenressourcen für ETL-Tools sind schlicht nicht auf das Volumen, die Variationen und die geringen Latenzzeiten von Big-Data-Workloads ausgelegt. Diese Tools mögen für strukturierte, interne Daten zwar weiterhin eine Berechtigung haben, stoßen bei der Integration eines Arrays an wenig bis unstrukturierten externen Big-Data-Quellen jedoch schnell an ihre Grenzen. Dies gilt insbesondere für latenzanfällige Anwendungen wie das Internet der Dinge (Internet of Things).

Laden Sie How to Future Proof Your Integration Strategy jetzt herunter.
HERUNTERLADEN

ELT verbessert Data Warehousing

ELT-Tools können Data Warehouses und Data Lakes auf unterschiedliche Arten optimieren. In beiden Fällen können ELT-Tools die erforderliche Analysezeit verkürzen. Wenn Daten in ein Data-Lake-Framework wie Hadoop geladen werden, lassen sich Staging und Transformation über die darin enthaltenen Verarbeitungs-Engines handhaben. Das Hadoop-Framework ist auf hohe Skalierbarkeit ausgelegt und setzt für rechenintensive Aufgaben auf eine parallele Verarbeitung. Organisationen können also einfach ELT einsetzen, um Daten in einen Data Lake zu laden, und dann mithilfe dieser Methode Schema on Read nutzen – ohne die konventionelle Datenmodellierung, die bei Schema in Relation erforderlich ist.

Beim Laden von Data Warehouses mit ELT kommt überwiegend die gleiche Methode zum Einsatz. Während des Transformationsprozesses werden Daten jedoch in das einheitliche Schema dieser Repositories transformiert. In einem zusätzlichen Schritt werden die transformierten Daten dann aus einem Data Lake wie Hadoop in das eigentliche Warehouse geladen. Viele der Zeitvorteile gelten auch hier, genau wie die Architektur- und Infrastruktur-Vorteile der Hadoop-Verarbeitungs-Engine bei der Transformation. Zu den Vorteilen von ELT gehören:

  • Optimierte Architektur: ELT-Tools nutzen die Verarbeitungsleistung von Zielsystemen wie Hadoop und optimieren damit die Architektur, die zur Vorbereitung der Daten erforderlich ist. Eine Zwischenschicht mit begrenzter Verarbeitungsleistung ist nicht vorhanden. Das Zielsystem wird sowohl für das Staging als auch für die Transformation der Daten eingesetzt.
  • Schnelle Einbindung von Big-Data-Quellen: ELT lässt sich zur Einbindung vieler wenig bis unstrukturierter Big-Data-Quellen in Data Warehouses und Data Lakes nutzen. Derartige Quellen lassen sich mit traditionellen Einbindungs- und Transformationsmethoden nur schwer erschließen.
  • Data Sandboxes: Zu den wiederkehrenden Vorteilen der besten ELT-Tools gehört die Verwendung von Datenspeichern wie Hadoop. Diese lassen sich als Sandboxes einsetzen, ohne dass dafür – wie dies bei konventionellen Ansätzen der Fall ist – Schemata an das zugrunde liegende Repository angepasst werden müssen.
  • Speicherung und Verarbeitung: ELT-Tools ermöglichen es Organisationen, Zielsysteme sowohl für die Speicherung als auch die Verarbeitung einzusetzen. Dies maximiert die Investitionsrendite dieser Repositories und steigert ihre Attraktivität bei Entscheidungsträgern.

Business Intelligence ist nach wie vor der wichtigste Anwendungsfall für Data Warehousing. Die besten ELT-Tools optimieren BI-Prozesse auf unterschiedliche Weise. Sie ermöglichen eine zeitnahe Einbindung verschiedener externer Quellen zusätzlich zu herkömmlichen internen Quellen. Dazu gehört die Anreicherung von CRM- und ERP-Daten mit alternativen Informationen wie Social-Media-Daten. Mit ELT-Methoden lassen sich diese Datenquellen zur Transformation in Hadoop einbinden. Data Scientists können dabei Schema-on-Read-Funktionen nutzen, um Abhängigkeiten zwischen alternativen Daten und Geschäftsanforderungen sowie Warehousing-Schemata zu verstehen. Nach einer Umwandlung dieser Datenquellen in das Warehousing-Schema können Anwender – um aussagekräftigere Analysen zu Kundentrends zu erhalten – Berichte auf Basis umfassender Daten erstellen.

Laden Sie Best Practices Report: Multiplatform Data Architectures jetzt herunter.
HERUNTERLADEN

ELT legt den Grundstein für die Zukunft der Datenintegration

ELT ist ein überzeugendes Mittel, um die Größe, die Geschwindigkeit und die Variationen von Big Data zu bewältigen und kommt heute in Unternehmen routinemäßig zum Einsatz. Es vermeidet die traditionelle Zwischenschicht von ETL und verlagert Data Staging und Transformationen in die darunter liegenden Data Repositories mit ihren modernen Verarbeitungs-Engines. Dieser Ansatz vereinfacht die Integrationsarchitektur, verkürzt die Time to Value und überzeugt durch die nötige Performance für die kontinuierliche Auswertung von Big Data. Dies gilt insbesondere im Vergleich zu herkömmlichen ETL-Methoden.

Der gegenwärtige Trend hin zu Big Data und die zunehmend benötigten heterogenen Rechenumgebungen sorgen dafür, dass zeitnahe, nachhaltige und effektive Datenintegrationen auch weiterhin ganz oben auf der Wunschliste von Unternehmen bleiben. ELT bedient diesen Wunsch mit einer deutlich flexibleren Implementierung von Datenintegrationen.

Talend Open Studio weist die gesamte Bandbreite an ELT-Vorteilen auf und kommt heute in vielen gängigen Big-Data-Frameworks zum Einsatz. Laden Sie Talend Open Studio herunter und erfahren Sie, wie ELT auch Ihrem Unternehmen zum Durchbruch verhelfen kann.

| Zuletzt aktualisiert: November 26th, 2019