Was ist eine Datenpipeline?

Bei „Datenpipeline“ denkt man vielleicht an ein Rohr mit darin fließenden Daten, und im Grunde trifft diese Beschreibung auch zu. Datenintegration ist ein Muss für moderne Unternehmen, damit sie die strategische Entscheidungsfindung verbessern und ihren Wettbewerbsvorteil ausbauen können – die kritischen Vorgänge in den Datenpipelines sind die Mittel zu diesem Zweck.

Der wachsende Bedarf an Datenpipelines

Während die Flut an Daten konstant steigt, setzen Unternehmen Datenpipelines ein, um das Potenzial ihrer Daten möglichst rasch zu entfalten und Kundenwünsche möglichst schnell erfüllen zu können.

Laden Sie The Definitive Guide to Data Integration jetzt herunter.
HERUNTERLADEN

Laut IDC werden 88 bis 97 % der weltweiten Daten bis 2025 nicht mehr gespeichert werden. In nur wenigen Jahren werden die Daten in Echtzeit im Arbeitsspeicher erfasst, verarbeitet und analysiert. Diese Prognose ist nur einer der vielen Gründe für den wachsenden Bedarf an skalierbaren Datenpipelines:

  • Beschleunigte Datenverarbeitung: Die Zeit für die Datenverarbeitung ist knapp und die Qualität der Daten von höchster Bedeutung, insbesondere für Entscheider. Fehlerhafte Daten haben nur geringen Wert, sie sind häufig unvollständig, veraltet oder falsch. In der datengestützten Welt von heute ist die mühsame, mehrere Stunden dauernde Berichtigung von Daten in Tabellenkalkulationen wie Excel keine Option mehr.
  • Mangel an Data Engineers: Nicht zuletzt aufgrund des Mangels an qualifizierten Data Scientists sind Unternehmen der sich immer schneller drehenden Produktivitätsspirale ausgeliefert. Diese Situation lässt den Ruf nach intuitiven Datenpipelines immer lauter werden.
  • Innovationen geben das Tempo vor: Viele Unternehmen sind an starre Infrastrukturen gebunden. Veraltete Funktionen und Prozesse halten sie in ihrer Entwicklung zurück. Angesichts der Menge und Vielfalt an Daten benötigen sie skalierbare Datenpipelines, die sich jederzeit an wechselnde Anforderungen anpassen lassen.

Die Daten in der Pipeline

Ein typisches Unternehmen setzt Zehntausende Anwendungen, Datenbanken und andere Informationsquellen wie Excel-Tabellenkalkulationen und Anrufprotokolle ein. Diese müssen in der Lage sein, untereinander Informationen auszutauschen. Der Erfolg neuer Cloud- und Big-Data-Technologien hat zu einer noch größeren Datenkomplexität beigetragen und die Erwartungen der Stakeholder weiter steigen lassen. Eine Datenpipeline umfasst eine Reihe von Tätigkeiten, die mit der Erfassung aller Rohdaten aus einer beliebigen Quelle beginnen und am Ende zu neuen Erkenntnissen führen.

Ansehen Getting Started With Data Integration in the Cloud jetzt herunter.
Jetzt ansehen

Der Weg durch die Datenpipeline

Die Datenpipeline beschreibt den gesamten Weg der Daten durch ein Unternehmen. Folgende vier Schritte durchlaufen die Daten in der Pipeline:

 

  1. Erfassen und Extrahieren der Roh-Datasets. Datensätze sind kombinierte Daten, die aus mehreren verschiedenen Quellen stammen können. Die Daten liegen in ganz unterschiedlichen Formaten vor, zum Beispiel Datenbanktabellen, Dateinamen, Themen (Kafka), Warteschlangen (JMS) und Dateipfade (HDFS). In dieser Phase sind die Daten nicht strukturiert oder klassifiziert, es handelt sich einfach um einen riesigen Berg an Daten, der in dieser Form keine sinnvollen Schlüsse zulässt.
  2. Datenmanagement. Nach der Datenerfassung müssen die Daten mithilfe einer bestimmten Methode im großen Stil organisiert werden. Dies wird als Data Governance bezeichnet. Dabei werden zunächst die Rohdaten in einen geschäftlichen Kontext gebracht, sodass sie Sinn ergeben. Anschließend wird die Datenqualität und -sicherheit kontrolliert und die Daten werden für die Massennutzung organisiert.
  3. Datentransformation. Bei der Datentransformation werden Datensätze entsprechend der passenden Berichtsformate bereinigt und geändert. Unnötige oder ungültige Daten werden eliminiert und die verbleibenden Daten gemäß einer Reihe von Regeln und Richtlinien angereichert, die von den Anforderungen des Unternehmens an die Daten bestimmt werden. Um die Qualität und Zugänglichkeit der Daten zu gewährleisten, sollte diese Phase folgende Schritte umfassen:
    • Standardisierung: Die Definition, welche Daten sinnvoll sind und wie diese formatiert und gespeichert werden sollen.
    • Deduplizierung: Meldung von Duplikaten an Data Stewards; Ausschließen und/oder Löschen redundanter Daten.
    • Prüfung: Durchführung automatisierter Checks, um ähnliche Informationen wie Transaktionszeiten und Zugriffsprotokolle zu vergleichen. Durch Prüfungen lassen sich unbrauchbare Daten weiter aussortieren und Anomalien in Systemen, Anwendungen oder Daten identifizieren.
    • Sortierung: Effizienzmaximierung durch das Gruppieren und Speichern von Elementen wie Rohdaten, Audio- und Multimediadateien und anderen Objekten in entsprechenden Kategorien. Transformationsregeln legen fest, wie jeder Datenteil klassifiziert wird und welchen Schritt er als Nächstes durchläuft. Diese Transformationsschritte reduzieren die anfängliche Menge an unbrauchbarem Material und wandeln sie in qualifizierte Daten um.
    • Weitergabe der Daten. Nach der Transformation erhält man verlässliche Daten, die nun im Unternehmen genutzt werden können. Die Daten werden häufig in einem Cloud-Data-Warehouse oder in einer Anwendung ausgegeben.

Laden Sie Was ist eine Datenpipeline? jetzt herunter.
Weitere Informationen

Bei der Datenverarbeitung und -integration ist Zeit zu einem Luxusgut geworden, das sich Unternehmen nicht mehr leisten können. Das Ziel jeder Datenpipeline ist die Datenintegration, damit den Verbrauchern verwertbare Daten möglichst in Echtzeit zur Verfügung stehen. Für eine Datenpipeline sollte man einen reproduzierbaren Prozess nutzen, der Batch- oder Streaming-Jobs unterstützt und mit den aktuellen und künftigen Anforderungen Ihrer Cloud- oder Big-Data-Plattform kompatibel ist.

Weitere Informationen

Die Talend Cloud Integration Platform umfasst Datenqualitäts-Tools, mit deren Hilfe sich diese Prozesse automatisieren und vereinfachen sowie Daten schnell und einfach integrieren lassen – unabhängig von Format und Quelle. Cloud Integration von Talend umfasst zudem hochentwickelte Sicherheitsfunktionen, über 900 Konnektoren und eine Vielzahl an Tools für das Datenmanagement, damit die Integration vom ersten bis zum letzten Schritt reibungslos verläuft. Laden Sienoch heute eine kostenlose Testversion herunter und staunen Sie, wie schnell und einfach sich Datenqualitätsziele erreichen lassen.

Talend hat vor kurzem Stitch erworben. Die ergänzende Lösung ermöglicht noch mehr Mitarbeitern in einem Unternehmen die Erfassung von mehr Daten, die organisiert, umgewandelt und mit Talend eingesetzt werden können, um allen Nutzern schnellere und bessere Erkenntnisse zur Verfügung zu stellen.

| Zuletzt aktualisiert: January 21st, 2020