Neu: Pipeline Designer – ein Novum für die Datenintegration

Neu: Pipeline Designer – ein Novum für die Datenintegration

  • Stephanie Yanaga
    Stephanie Yanaga is a Product Marketing Manager focusing on Talend’s free and open source products. In this role, Stephanie will be involved in the open source product strategy and will also work to ensure the Talend open source community has the resources needed to continue to thrive. Prior to joining the product marketing group in January 2018, Stephanie spent two years in Australia building out Talend’s APAC presence.

Heute stelle ich Ihnen Pipeline Designervor, eine Next-Gen-Designumgebung zur Integration von Clouddaten, mit der sich Datenpipelines innerhalb weniger Minuten entwickeln und bereitstellen lassen. Sie eignen sich für alle Batch- und Streaming-Anwendungsfälle und skalieren nativ mit den aktuellsten Hybrid- und Multi-Cloud-Technologien

<<Pipeline Designer jetzt testen>>

Was leistet Pipeline Designer?

Es ist kein Geheimnis, dass Daten in jeder Branche einen Wettbewerbsvorteil bieten. Um diesen auch dauerhaft zu nutzen, gibt es drei Voraussetzungen:
  1. Es müssen die am besten verwertbaren Daten erfasst werden.
  2. Die abhängigen Geschäftsbereiche müssen zeitnah mit diesen Daten versorgt werden, um schnelle Entscheidungen zu ermöglichen.
  3. Skalierung und Innovation als Reaktion auf neue Datenanforderungen muss einfach möglich sein.
Mit dem Aufkommen neuer Datentypen und Technologien wird es immer schwerer, diese Voraussetzungen zu erfüllen. Eine der größten Herausforderungen für Organisationen ist derzeit, alle Arten von Streaming-Modellen zu nutzen und neue Datentypen aus Quellen wie Social Media, dem Internet, Sensoren, der Cloud usw. zu erfassen. Unternehmen sehen in der Echtzeitverarbeitung und -bereitstellung von Daten eine extrem nützliche Technologie, die sofortige Erkenntnisse liefern kann und das Zeug hat, die Spielregeln neu zu definieren. Aber diese Daten zu erfassen und zu transformieren ist kein leichtes Unterfangen.
 
Clickstream-Daten werden beispielsweise ununterbrochen von Websites übermittelt, der Datenstrom reißt nie ab. Die herkömmliche Batch-Erfassung und -Verarbeitung eignet sich nicht mehr für Datenstreams, da sie auf festen Start- und Endpunkten basiert und keine Echtzeitreaktion auf das Erfasste ermöglicht. So nutzen Onlinehändler Clickstream-Daten, um nachzuvollziehen, wie Kunden ihre Websites nutzen – eine essenzielle Information für zielgruppenorientiertes Marketing. Angesichts geringer Margen sind Echtzeiteinblicke in das Kundenverhalten und die Preise der Konkurrenz ausschlaggebend für schnelle Entscheidungen und den Gewinn von Marktanteilen.
 
Sollen darüber hinaus Daten aus verschiedenen Anwendungen verarbeitet werden, überfordern Änderungen des Datenformats möglicherweise Ihr Datenintegrations-Tool, und jedes neue Feld in den Quelldaten macht Ihre Datenpipelines zunichte. Und selbst wenn die IT diesen dynamischen Daten gewachsen ist, müssen abhängige Geschäftsbereiche möglicherweise wochenlang auf verwertbare Erkenntnisse warten, da die Verteilung der Daten immer aufwendiger wird.

In einer aktuellen Umfrage nannten, über 30 % der befragten Data Scientists die mangelnde Verfügbarkeit von und den schwierigen Zugriff auf Daten als ihre größten Herausforderungen. Die Nachfrage nach mehr verwertbaren Daten zeigt sich zudem in einem um das 4-Fache größeren Stellenmarkt für Data Engineers als für Data Scientists.

Data Engineering, also das Abrufen, Erfassen, Transformieren und Bereitstellen aller Datentypen für Entscheider, hat Hochkonjunktur und Data Engineers wird mehr denn je hohe Produktivität in stets fluktuierenden Datenumgebungen abverlangt. Gleichzeitig müssen Ad-hoc-Integratoren in der Lage sein, Daten selbst abzurufen und zu integrieren, um nicht mehr von der IT abhängig zu sein.
 
Zu guter Letzt verlangen Unternehmen von ihren Data Engineers und Ad-hoc-Integratoren, dass Daten auf der Stelle integriert werden. Doch ohne die richtigen Tools, ist das ein Ding der Unmöglichkeit. Sie benötigen ein Cloud-natives Integrations-Tool, das nicht nur zugänglich und intuitiv ist, sondern auch die Vielfalt und Flut an Daten stemmen kann.
 
Die Problematik mag überwältigend scheinen, aber keine Sorge. Wir haben da noch ein Ass im Ärmel.

Neu: Pipeline Designer

Da wir diese Situation immer wieder bei Kunden beobachtet haben, wussten wir, dass wir helfen können. Deshalb haben wir Pipeline Designer entwickelt.
 
Pipeline Designer ist eine cloudbasierte Self-Service-Weboberfläche für eine schnellere, einfachere und zugänglichere Datenintegration im Zeitalter nutzerfreundlicher Cloudanwendungen und einer konstant wachsenden Flut an Daten, Typen und Technologien.

Sie bietet Data Engineers eine unkomplizierte Lösung für einfachere Anwendungsfälle wie die Transformation und Bereitstellung von Daten in einem Data Warehouse, die Erfassung und Verarbeitung in einem cloudbasierten Data Lake sowie Massen-Uploads in Snowflakeund und Amazon Redshift. Die moderne Architektur von Pipeline Designer eignet sich sowohl für Batch- als auch Streaming-Daten, ohne dass Pipelines aufgrund wachsender Datenmengen oder geänderter Datenformate neu erstellt werden müssen. Dies ermöglicht eine schnellere Transformation und Bereitstellung von Daten als je zuvor.

<<Pipeline Designer jetzt testen>>

Was ist das Alleinstellungsmerkmal von Pipeline Designer? Hier ein paar Highlights:

Live-Vorschau

Mit der Live-Vorschau in Pipeline Designer lassen sich Daten fortlaufend integrieren. Pipelines müssen nicht mehr neu designt, kompiliert, bereitgestellt und ausgeführt werden, um die Daten einsehen zu können.
 
Stattdessen lassen sich Datenänderungen in Echtzeit, zu jedem Schritt des Designprozesses und auf derselben Oberfläche nachverfolgen. Durch einen Klick auf einen der Prozessoren Ihrer Pipeline können Sie die Daten vor und nach der Transformation überprüfen. Dies verkürzt die Entwicklung deutlich und beschleunigt Ihre Digitalisierungsprojekte.
 
Nehmen wir als Beispiel die Ein- und Ausgabe der folgenden Python-Transformation:

Schemaloses Design

Schema-on-read ist eine Strategie zur Integration moderner Daten wie Streaming Daten in Big-Data-Plattformen, Messaging-Systemen und NoSQL. Der Ansatz spart Zeit, da die oftmals weniger strukturierten Eingabedaten keinem festen Schema zugeordnet werden müssen.

Pipeline Designer unterstützt Schema-on-read, wodurch das Definieren von Schemata vor der Pipelineerstellung entfällt und die Pipeline nicht von Schemaänderungen beeinträchtigt wird. Bei der Definition von Verbindungen oder Datensätzen in Pipeline Designer erfolgt keine feste Definition des Schemas. Die Struktur der Daten wird bei der Ausführung der Pipeline inferenziert, d. h. ihre Struktur wird beim Erfassen geschätzt. Bei einer Änderung im Quellschema passt sich die Pipeline bei der nächsten Ausführung automatisch an. Sie können also sofort mit Ihren Daten arbeiten und Quellen „on the fly“ hinzufügen, da die Schemata dynamisch erkannt werden. Kurzum: Sie profitieren von höherer Resilienz und Flexibilität gegenüber einer „starren“ Metadaten-Definition.

Datenintegration mit beispielloser Flexibilität

Talend gilt seit Langem als führender Anbieter in Sachen Zukunftssicherheit – auch und gerade wenn es um Ihre Entwicklungsarbeit geht. Mit Talend können Sie Ihre Pipeline modellieren und die gewünschte Plattform auswählen (lokal, Cloud oder Big Data). Wenn sich Ihre Anforderungen ändern, können Sie einfach die Plattform wechseln. Zum Beispiel haben wir unseren Codegenerator von MapReduce auf Spark umgestellt, um Aufgaben mit optimiertem, nativen Spark und wenigen Klicks einfach ausführen zu können. Aber es geht noch besser: Auf Basis des Open-Source-Projekts Apache Beam konnten wir Design und Laufzeit entkoppeln, wodurch Sie sich bei der Erstellung Ihrer Pipeline keine Gedanken um die Verarbeitungs-Engine machen müssen.
 
Nicht nur das, Sie können sogar Streaming- und Batch-Pipelines mit derselben Palette designen.
 
Wenn Sie zum Beispiel dieselbe Pipeline an eine begrenzte Quelle (wie eine SQL-Abfrage) oder eine unbegrenzte Quelle (wie eine Nachrichtenwarteschlange) koppeln, arbeitet sie als Batch- oder Stream-Pipeline – je nachdem um welche Datenquelle es sich handelt. Die Laufzeit kann entweder nativ in der Cloud erfolgen, in der sich Ihre Daten befinden, oder – wenn Sie grenzenlose Skalierbarkeit wünschen – in EMR. Mit seiner Multicloud-Skalierbarkeit ist Pipeline Designer der „Verwandlungskünstler“ unter den Designlösungen.

Eingebettete Python-Komponente

Da Python nicht nur die am schnellsten wachsende Programmiersprache, sondern auch bei Data Engineers sehr beliebt ist, haben wir diese Sprache gewählt, um Pipeline Designer an individuelle Transformationsaufgaben anzupassen. Hierzu verfügt Pipeline Designer über eine eingebettete Python-Komponente für entsprechend individualisierbare Skripte.

Sie möchten Ihre Daten optimal nutzen?

Ein weiterer Vorteil von Pipeline Designer ist, dass es sich nicht um eine Standalone-Anwendung oder Einzellösung handelt. Er ist Teil der Talend Data Fabric Plattform, die einige der komplexesten Aufgaben der gesamten Datenwertschöpfungskette löst. Benutzer können Daten aus unterschiedlichen Systemen erfassen, ihre Verwendung mithilfe von Regeln optimieren, Daten in neue Formate umwandeln, die Qualität der Daten verbessern und sie für interne und externe Stakeholder zugänglich machen.
 
Pipeline Designer wird von derselben Anwendung wie der Rest der Talend Cloud verwaltet: der Talend Management Console. Dieser Ansatz gewährleistet einen Überblick und eine Kontrolle, wie sie nur eine einheitliche Plattform wie die Talend Cloud bieten kann. Die IT profitiert natürlich von all den anderen Vorteilen von Talend Data Fabric, wie die Kontrolle über die Datennutzung. Dies vereinfacht Audits, Datenschutz, Sicherheit und die Qualitätssicherung der Daten.
 
Neueinsteiger erhalten mit Pipeline Designer eine Suite an spezialisierten, integrierten Anwendungen für ein umfassendes, unternehmensweites Datenmanagement. Wenn Ihre Anforderungen steigen, können Sie darauf vertrauen, dass Talend weiterhin die richtige Lösung für Sie parat hat.

Nutzen Sie unsere kostenlose Testversion (kein Download erforderlich) und erfahren Sie, wie Pipeline Designer Ihre Integration vereinfachen kann. Für weitere Informationen zu den Features besuchen Sie die Produktseite oder starten Sie einen kostenlosen 14-tägigen Test!

Die beliebtesten Ressourcen

Sie sind sich immer noch nicht ganz sicher, wo Sie beginnen sollen?

An der Diskussion teilnehmen

0 Comments

Hinterlasse eine Antwort

Your email address will not be published. Required fields are marked *