Talend Data Quality

Unter Datenqualität versteht man mehr, als Unternehmen einfach nur zu korrekten Daten in Ihrem System zu verhelfen:
Zusätzlich dazu müssen fehlerhafte, korrupte oder doppelt vorhandene Daten entfernt werden. Saubere Daten sind unerlässlich wenn es darum geht, Informationen systemübergreifend zu integrieren, da sich Fehlinformationen schnell verbreiten können – sowohl intern, als auch unter Geschäftspartnern. Durch die heutigen miteinander verbundenen Informationssysteme, verhalten sich Daten schlechter Qualität ebenso wie Vieren: Fehlerhafte Information können sich schnell auf andere Anwendungen ausbreiten. Die Kosten kompromittierter Daten sind kaum kalkulierbar und reichen von entgangenen Umsätzen, vergeudete Produktivität, Schädigung des guten Rufs oder Firmenwerts bis hin zu entgangenen Geschäftsmöglichkeiten.

Wollen Sie mehr über das Open Source Tool Talend Data Quality erfahren? Sehen Sie sich eine Online-Demonstration an oder lesen Sie nach, welche Erfahrungen unsere User gemacht haben.

Sie sind sich nicht sicher, ob Sie die Open-Source-Tools Talend Open Profiler oder Talend Data Quality benötigen? Werfen Sie doch einen Blick auf die Feature‑Übersicht.

Data Profiling

Der erste Schritt zur Verbesserung der Qualität von Unternehmensdaten ist die „Profilierung“ (Data Profiling) oder Auswertung dieser Daten. Der hoch entwickelte und dennoch einfach zu verwendende Data Profiler ist ein fortschrittliches System, dass keine Kenntnisse über Datenbank-Engines oder Dateistrukturen voraussetzt. Sowohl Business-Analysten als auch nicht-technische Mitarbeiter können eine Reihe von Indikatoren, Pattern und Business-Rules, für jedes Datenelement das mit Hilfe des Open-Source-Tools zum Data Profiling analysiert oder überwacht werden muss, definieren. Diese Indikatoren können sowohl einfache als auch komplexe Statistiken, Pattern und Soundex-Frequenzen, Textfolgen oder nummerische Analysen, einschließlich der Zusammenfassung von Daten und statistischen Verteilungen von Datensätzen, sein. Pattern sind vor- oder benutzerdefinierte Musterdaten, die die zu erwartende Form der Datenanalyse definieren, während Open Source Business Rules für Datenqualität dabei helfen, angepasste Schwellwerte und Wertebereiche zu definieren.

Talend Data Quality: open source Data Profiling

Durch die regelmäßige Überprüfung der Messdaten und ihrer Entwicklungsrichtung, mit Hilfe von Data Profiling, kann ein Unternehmen die Entwicklung (Verbesserungen oder Verschlechterungen) seiner Datenqualität verfolgen.

Talend Data Quality umfasst weitere Profiling- und Reporting-Funktionen:

  • Historie von Data-Profiling-Analysen
  • Batch-Analysen
  • Benutzerdefinierte Report-Stylesheets
  • Verschiedene Berichtsformate, einschließlich PDF, HTML und XML.

Datenbereinigung

Talend Data Quality: open source Data Cleansing

Sobald Problembereiche identifiziert wurden, müssen die Daten korrigiert werden. Für Daten die nicht ihren Standards entsprechen, bietet Talend Data Quality leistungsstarke Tools zur Korrektur und Bereinigung an. Auch ermöglicht Talend Data Quality eine Nutzung von  Referenzdaten, um Standards für Werte festzulegen. Mit Hilfe regulärer Ausdrücke lassen sich Standards für die Form und die Größe von Daten festlegen. Matching-Algorithmen wiederum helfen dabei, Duplikate und Beinahe-Duplikate in ihren Daten zu finden und zu korrigieren.

Beim Aufbau des Bereinigungsprozesseses können sie auf ein breites Spektrum dedizierter Komponenten für Datenintegration und Datenqualität zurückgreifen. Dazu gehören unter anderem Komponenten zur Namens- und Adressbereinigung sowie das Fuzzy-Matching. Diese Komponenten sind nativ in Talend Data Quality verfügbar.

Datenanreicherung

Talend Data Quality: open source Data Enrichment

Eine Datenanreicherung schließt vorhandene Lücken in Ihren Daten, so dass Sie Ihre Business-Ziele erreichen können. Die Vielfalt dieser Informationen ist nahezu grenzenlos – Daten von Auskunfteien zur wirtschaftlichen Situation eines Unternehmens, die Kreditwürdigkeit eines Verbrauchers,  Hinzufügen von Koordinaten einer Adresse zur besseren Planung von Lieferrouten oder das Erfassen von Erhebungsdaten zur Bestimmung von Einkommenskategorien. Eine intuitive Entwicklungsumgebung hilft dem User bei der Entwicklung nahtloser Prozesse in einer einzigen Umgebung, um Daten zu konsolidieren, zusammenzuführen oder einfach in ein beliebiges Zielsystem einzufügen.

Analyse-Portal

Das Data Quality Portal bietet ein individuell anpassbares, webbasiertes Monitoring und Reporting zur Datenqualität an. Damit werden Unternehmen bei der Überwachung und Einhaltung wichtiger Datenqualitätskriterien unterstütz, die möglicherweise einen Einfluss auf wichtige Geschäftsprozesse haben.

Talend Data Quality: Analytical Portal

Das Data Quality Portal liefert individuell anpassbare Qualitätskennzahlen, sogenannte Key-Quality-Indikatoren (KQI), an das webbasierte Data Quality Portal, mit dem Teams gemeinsam an dem Prozess der unternehmensweiten Verbesserung der Datenqualität arbeiten können. Es umfasst die Erstellung von Berichten als PDF, benutzerdefinierte Dashboards, ad-hoc-Abfragen und die zeitbasierte Überwachung der KQI`s. Zudem ermöglicht das Data Quality Portal den Zugriff auf vordefinierte Berichte und globale Qualitätsmaße, die eine eventuelle Verletzung ihrer Schwellwerte kontinuierlich überwachen.

Datenqualität und Datenintegration

Talend Data Quality: Data Quality and Data Integration

Da Talend`s Produkte Teil derselben einheitlichen Plattform sind, sind die Optionen der Datenqualität nahtlos in die Talend Integration Suite und Talend MDM integriert und bieten dem User eine durchgängige Ergonomie, eine enge Lernkurve und ein hohes Maß an  Wiederverwendbarkeit. Hieraus ergibt sich ein unschlagbarer Vorteil bei der Ressourcenoptimierung und dem Ressourceneinsatz, sowie bei der Projektkonsistenz.

Zu den wichtigsten Features dieser integrierten Plattform gehört:

  • Ein Single-Development-Studio basierend auf Eclipse: Objekte wie Transformations- und Validierungsregeln, Business-Rules, Ausdrücke, Variablen, Joblets usw. können einfach von einem zum anderen Projekt übertragen und wiederverwendet werden.
  • Ein gemeinsames Metadaten-Repository, das eine gemeinsame Verwendung grundlegender Informationsressourcen, wie etwa der Benutzerdaten, der Metadaten einer Anwendungen, Business-Modelle, Business-Rules, Transformations- und Validierungsregeln, Konnektoren, Datenvalidierung und Workflows, unterstützt.
  • Eine Vereinheitlichte Entwicklungsumgebung, die ein dezentrales und kontinuierlich verfügbares Ausführungsparadigma, eine Single-Monitoring-Konsole sowie eine  Berichterstattung in Echtzeit, beinhaltet.