Talend Open Profiler

Beim Data Profiling werden vorhandene Daten aus bestehenden Datenquellen (z.B. Datenbanken, Anwendungen, Dateien usw.) geprüft und Statistiken und Informationen darüber gesammelt. Data Profiling ermöglicht eine Einschätzung des Qualitätsniveaus der im Informationssystem enthaltenen Daten, auf Basis vordefinierter Messungen und Zielsetzungen.

Talend Open Profiler ist ein ausgereiftes und dennoch einfach zu verwendendes Open Source Tool zum Data Profiling, das den Inhalt, die Struktur und die Qualität hochkomplexer Datenstrukturen definiert. Der Open Source Data Profiler erlaubt es Business Usern sowie Mitarbeitern des Data Managements, mit Hilfe von unterschiedlichen Indikatoren, Pattern und Regeln, eine Vielzahl von Analysen für jedes zu analysierende oder zu überwachende Datenelement durchzuführen. Dabei werden die Daten, ebenso wie die Veränderungen an Quelldaten, kontinuierlich analysiert, um zu einer ständigen Verbesserung der Datenqualität beizutragen.

Laden Sie Talend Open Profiler herunter!

Wollen Sie mehr über den Talend Open Profiler, das Open Source Tool zum Data Profiling, erfahren? Sehen Sie sich eine Online-Demonstration an oder lesen Sie nach, welche Erfahrungen unsere User gemacht haben.

Nicht sicher, ob Sie Talend Open Profiler oder Talend Data Quality benötigen? Werfen Sie doch einen Blick auf die Feature‑Übersicht.

Metadaten Erkennung

Talend Open Profiler verbindet sich mit Datenbanken, um Einblick in ihre Strukturen zu gewinnen und speichert die Beschreibung ihrer Metadaten in seinem Metadatenmanager.

Ein Filtersystem hilft dem Anwender dabei, nur bestimmte Tabellenteile oder Spalten für die Analyse auszuwählen, um so die leistungsfähige Verbindung auch bei einer großen Anzahl an Tabellen zu optimieren. Auf diese Weise können sich Datenanalysten auf die Analyse ihrer wichtigsten Daten konzentrieren.

Talend Open Profiler: Metadata discovery

Anschließend werden die Metadaten von Datenanalysten dazu verwendet, um Datenbankvergleiche und Analysen durchzuführen sowie Messkriterien und Indikatoren zur Datenqualität einzurichten. Dies hilft dem Anwender dabei, die Qualität der analysierten Daten zu beurteilen und darüber zu entscheiden, ob eventuell notwendige Maßnahmen bezüglich einer Datenbereinigung, einer Datenintegration oder einem Data Stewardship ergriffen werden müssen.

Zusätzlich erlaubt ein integrierter Daten Explorer einen direkten Drill-Down in die Tabellen der analysierten Datenbanken, um sie, mit Hilfe von industrieweit standardisierten SQL Queries, zu durchsuchen.

Benutzerdefinierte Business Rules

Business Rules sind spezifische Kriterien, Schwellwerte oder Wertebereiche, die zur Identifizierung übereinstimmender Werte, unlogischer Einträge (z.B. eingegebenes Alter < 0 oder dezimal) oder bei Einträgen die nicht den erwarteten Werten entsprechen, Verwendung finden.

Talend Open Profiler: Custom business rules

Ein geeigneter Wizard erleichtert die Umsetzung eigener Business Rules zur Datenqualität. Durch den Einsatz einfacher Standard-SQL Befehlen bei der Definition der Regeln, wird eine erweiterte Verwendung der Join-Conditions für komplexere Anforderungen ermöglicht. Die Regeln zur Datenqualität werden dafür genutzt, den Indikatorwert der Datenqualität des zu erwartenden Schwellwerts, zu definieren. Die definierte Reichweite oder Aussage wird dazu verwendet, die Datenqualität in der jeweiligen Tabelle im Data-Profiling-Tool zu messen.

Pattern

Pattern sind Masterdaten, die für einen Datenabgleich mit bereits analysierten Daten während des Data Profiling verwendet werden. Eine Sammlung vordefinierter Pattern, mit den häufigsten Datenqualitätsproblemen, stehen in Form einer Library zur Verfügung.

Eine Reihe vordefinierter Pattern sind nativ verfügbar und helfen dabei, die am häufigsten zu erwartenden Formen von Datenanalysen zu definieren.

Talend Open Profiler: Patterns

Zusätzlich dazu können vollständig individuell erstellte Pattern, basierend auf regulären Ausdrücken oder SQL-Statements (Befehlen), eingesetzt werden, um die Überprüfung der Daten zu optimierten und zu spezifizieren.

Profiling-User können ihre individuell erstellten Pattern auch der Allgemeinheit zur Verfügung stellen bzw. Pattern anderer User der Open Source Talend Community für ihre Zwecke nutzen. Diese Talend Exchange-Plattform, die einen Austausch von eigenen oder fremden Pattern ermöglicht, ist direkt aus dem Talend Open Profiler erreichbar. Reguläre Ausdrücke oder SQL-Pattern können ebenso über eine CSV-Datei importiert werden, falls die Anzahl der zu verarbeitenden Pattern sehr groß ist.

Indikatoren

Talend Open Profiler: Indicators

Indikatoren sind das Ergebnis einer Implementierung verschiedener Pattern. Sie definieren Inhalt, Struktur und Qualität der analysierten Daten und können aus einfachen bis hochkomplexen Operationen, basierend auf einem Datenabgleich oder anderen datenbezogenen Vorgängen, resultieren.

Im Talend Open Profiler stehen zahlreiche Systemindikatoren nativ zur Verfügung, die dem User den Einstig in das Data-Profiling erleichtern:

  • Simple Statistics: Liefert Data-Profiling-Statistiken über die Anzahl von Datensätzen, gegliedert in bestimmte Kategorien wie etwa: Anzahl von Zeilen, Nullwerten, einzig- und verschiedenartiger Werte, Anzahl der Duplikate oder leerer Felder.
  • Text Statistics: Analysiert die Eigenschaft von Textfeldern, einschließlich der Mindest-, Höchst- und Durchschnittslänge.
  • Summary Statistics: Führt statistische Analysen numerischer Daten durch, einschließlich der Berechnung des Mittelwertes, des Durchschnitts und des inneren Quartil- und Wertebereichs.
  • Advanced Statistics: Legt die wahrscheinlichsten und häufigsten Werte fest und konstruiert, auf der Grundlage dieser Werte, Frequenztabellen.
  • Pattern Frequency Statistics: Berechnet die Anzahl der häufigsten und seltensten Datensätze für jedes einzelne Pattern.
  • Soundex Frequency Statistics: Indiziert Datensätze anhand ihrer Phonetik und ihres Klangs.

Spezielle Wizards helfen Usern bei der Definition ihrer eigenen Indikatoren auf Basis von SQL-Befehlen oder Java-Funktionen. Mit ihrer Hilfe kann sowohl die Qualität als auch deren Eigenschaft besser eingeschätzt werden.

Darstellung

Talend Open Profiler: Rendering

Talend Open Profiler erzeugt für jede Tabelle, jede Spalte, jedes Datenelement oder jeden ausgewählten Indikator aussagekräftige Berichte und Grafiken. Mit ihnen kann der User Ergebnisse des Data Profilung, direkt im Analyse-Editor,  auf einen Blick sehen.