Die Zukunft von Big Data

Relationale Datenbanken, das Internet sowie Wireless- und andere Technologien machten Anfang dieses Jahrhunderts die Analyse und Verwaltung massiver Datensätze zu einer realen, allgegenwärtigen Herausforderung, für die man einen Namen brauchte. Der Begriff „Big Data“ wurde im Juli 2013 erstmals im Oxford English Dictionary aufgenommen, doch lange davor, bereits im zweiten Weltkrieg, kursierte der Terminus als Umschreibung für die Arbeit mit massiven Daten.

Big Data bezieht sich auf Datensätze, die zu groß und komplex für traditionelle Datenverarbeitungs- und Datenverwaltungsanwendungen sind. Big Data wurde mit dem Aufkommen der Mobil- und IoT-Technologien populär, da immer mehr Menschen immer mehr Daten (Geolocation, soziale Apps, Fitnessapps, etc…) generieren und digitale Daten auf ihren Geräten abrufen.

Es ist inzwischen außerdem ein Sammelbegriff für alles, was mit der Erfassung, Analyse und Nutzung riesiger Mengen digitaler Informationen zur Prozessoptimierung zu tun hat. Da Datensätze immer weiter wachsen und Anwendungen zunehmend echtzeitfähig sind, werden Big Data und ihre Verarbeitung mehr und mehr in die Cloud verlagert.

Download The Forrester Wave™: Big Data Fabric, Q2 2018 now.
HERUNTERLADEN

Warum ist Big Data so wichtig?

In der digitalen Welt von heute erwarten die Verbraucher, dass ihre Wünsche sofort erfüllt werden. Von Online-Vertriebstransaktionen bis hin zu Marketing-Feedback und -Optimierung passiert in unserer Cloud-basierten Geschäftswelt alles mit sehr hohem Tempo. Im Rahmen dieser schnellen Transaktionen werden Daten ebenso rasant generiert und gesammelt. Nur wenn Informationen sinnvoll in Echtzeit genutzt werden, können Unternehmen eine 360-Grad-Sicht auf ihre Zielgruppen schaffen und diese Informationen zu ihrem Vorteil einsetzen. Ansonsten laufen sie Gefahr, Kunden an Mitbewerber zu verlieren, die ebendies tun.

Die Chancen (und potentiellen Probleme) bei der Verwaltung und Nutzung von Datenoperationen sind schier endlos. Hier ein paar Möglichkeiten, wie Big Data eine Organisation transformieren kann:

  • Business Intelligence – Der Begriff beschreibt die Aufnahme, Analyse und Anwendung von Big Data, um Vorteile für eine Organisation zu generieren. Damit ist Business Intelligence ein wichtiges Instrument im Kampf um Marktanteile. Durch die Darstellung und Vorhersage von Chancen und Herausforderungen können Organisationen mit Business Intelligence ihre Big Data optimal für ihren Erfolg nutzen.
    .
  • Innovation – Big Data wird eingesetzt, um die unzähligen Interaktionen, Muster und Anomalien innerhalb einer Branche und eines Markts präzise zu analysieren und so neue, kreative Produkte und Tools auf den Markt zu bringen.

    Nehmen wir an, das Unternehmen Mustermann Corp. analysiert seine Big Data und stellt dabei fest, dass sich bei warmem Wetter das Produkt B im mittleren Westen fast doppelt so häufig verkauft wie das Produkt A, während der Umsatz an der Westküste und im Süden gleich bleibt. Die Mustermann Corp. könnte daraufhin ein Marketing-Tool entwickeln, das Kampagnen in den sozialen Medien für die Märkte im mittleren Westen lanciert und dabei die Beliebtheit und sofortige Verfügbarkeit von Produkt B hervorhebt. So könnte die Firma ihre Geschäftsdaten optimal nutzen, um neue oder individuell angepasste Produkte und Anzeigen zu unterstützen und auf diese Weise das Gewinnpotenzial steigern.
  • Geringere Betriebskosten – Wenn ein gesparter Penny ein verdienter Penny ist, wie man im Englischen sagt, dann hat Big Data das Potential, viele Pennys zu verdienen. IT-Experten messen betriebliche Prozesse nicht am Preis der Hardware, sondern an einer Vielzahl von Faktoren wie Jahresverträge, Lizenzierung und Personalaufwand.

    Die durch den Einsatz von Big Data gewonnenen Erkenntnisse zeigen schnell, wo Ressourcen zu wenig ausgelastet sind und welche Bereiche mehr Aufmerksamkeit benötigen. Zusammen unterstützen diese Informationen Führungskräfte dabei, Budgets so zu gestalten, dass sie flexibel genug bleiben, um in einer modernen Umgebung erfolgreich zu agieren.

In fast allen Branchen setzen Unternehmen auf Big Data, um Trends zu erkennen und Innovationen auf den Weg zu bringen. Versandunternehmen zum Beispiel berechnen damit Transitzeiten und legen Tarife fest. Big Data bildet die Grundlage für bahnbrechende wissenschaftliche und medizinische Forschungsprojekte und ermöglicht Analysen und Studien so schnell wie nie zuvor. Außerdem wirkt sich Big Data auf unser tägliches Leben aus.

Download Die Zukunft von Big Data now.
Weitere Informationen

Die fünf Vs von Big Data + 1

Big Data wird von Branchenexperten häufig mit den 5 Vs beschrieben. Betrachten Sie jedes dieser 5 Elemente für sich, ohne aber die Interaktionen untereinander aus dem Blick zu verlieren.

Volume – Entwickeln Sie einen Plan für die vorgesehene Datenmenge und überlegen Sie sich, wie und wo diese Daten untergebracht werden sollen.

Variety – Identifizieren Sie alle unterschiedlichen Datenquellen in einem Ökosystem und erwerben Sie die richtigen Tools für die Datenaufnahme.

Velocity – Wie bereits erwähnt, spielt Geschwindigkeit eine enorm wichtige Rolle in modernen Unternehmen. Recherchieren und implementieren Sie die passenden Technologien, damit Sie ein klares Bild Ihrer Big Data erhalten und dabei so nah wie möglich an Echtzeit herankommen.

Veracity – „Garbage in, garbage out“ – oder mit anderen Worten: Wenn Sie Müll eingeben, kann nichts Sinnvolles dabei herauskommen. Sorgen Sie also dafür, dass Ihre Daten genau und sauber sind.

Value – Nicht alle gesammelten Informationen sind gleich wichtig, erstellen Sie also eine Big Data-Umgebung, die aussagekräftige BI-Erkenntnisse auf verständliche Weise präsentiert.

Und wir möchten noch ein weiteres V hinzufügen:

Virtue – Die Ethik der Big Data-Nutzung darf angesichts der zahlreichen Datenschutz- und Compliance-Verordnungen nicht vergessen werden.

Big Data-Analysen und Data Lakes 

Bei Big Data geht es vor allem um neue Use Cases und neue Erkenntnisse, gar nicht so sehr um die Daten selbst. Mit Big Data-Analysen werden sehr große, granulare Datensätze auf verborgene Muster, unbekannte Korrelationen, Markttrends, Kundenpräferenzen und neue, geschäftlich relevante Erkenntnisse überprüft. Heute können Fragen gestellt werden, auf die traditionelle Data Warehouses keine Antwort hatten, da darin nur aggregierte Daten gespeichert werden konnten.

Stellen Sie sich kurz vor, Sie sehen sich ein Bild der Mona Lisa an, können aber nur große Pixel erkennen. Genauso können Sie sich die Ansicht vorstellen, die Sie von Kunden in einem Data Warehouse bekommen. Um eine hoch aufgelöstes Portrait Ihrer Kunden zu erhalten, müssen Sie feine, granulare Daten auf Nanolevel zu diesen Kunden speichern und Big Data-Analysen wie Data Mining oder maschinelles Lernen einsetzen.

Bei Data Lakes handelt es sich um ein zentrales Speicherrepository, das Big Data aus vielen Quellen in einem rohen, granularen Format enthält. Es kann strukturierte, semistrukturierte oder unstrukturierte Daten speichern. D. h. die Daten können in einem flexibleren Format zur späteren Nutzung aufbewahrt werden. Ein Data Lake verbindet Daten beim Speichern mit Identifiern und Matadaten-Tags für einen schnelleren Zugriff. Data Scientists können mit Data Lakes schneller und mit einer höheren Genauigkeit Daten abrufen, vorbereiten und analysieren. Analyse-Experten bietet dieser riesige Pool an Daten, die in unterschiedlichen, weniger verbreiteten Formaten verfügbar sind, die einzigartige Chance, Daten für verschiedenen Use Cases wie Sentimentanalysen oder Betrugserkennung abzurufen.

So können Sie Big Data nutzen

Um die oben beschriebenen Punkte umsetzen zu können, fangen Sie am besten erst einmal mit den Basics an. Bei Big Data beinhaltet das normalerweise Hadoop, MapReduce und Spark, drei Angebote aus den Apache Software Projects.

Hadoop ist eine Open Source-Softwarelösung für Big Data. Die Tools in Hadoop helfen bei der Verteilung der Verarbeitungslast, um die massiven Datensätze auf einigen – oder hunderttausenden – separater Computing-Knoten zu verarbeiten. Anstatt ein Petabyte an Daten an einen kleinen Verarbeitungsort zu übertragen, macht Hadoop das Gegenteil und sorgt so für eine erheblich schnellere Verarbeitung von Informationen.

MapReduce unterstützt – wie der Name schon sagt – die Ausführung zweier Funktionen: Das Kompilieren und Organisieren (Mapping) von Datensätzen und die anschließende Verfeinerung in kleinere, organisierte Datensätze, um auf Aufgaben oder Abfragen zu reagieren.

Spark ist ebenfalls ein Open Source-Projekt der Apache Foundation. Es ist ein ultraschnelles, verteiltes Framework für die Verarbeitung großer Datenmengen und maschinelles Lernen. Die Verarbeitungsengine von Spark kann als eigenständige Installation, als Cloud-Service oder in allen gängigen verteilten IT-Systeme wie Kubernetes oder Sparks Vorgänger, Apache Hadoop, laufen.

Diese und weitere Tools von Apache zählen zu den zuverlässigsten Lösungen, um Big Data sinnvoll in Ihrer Organisation zu nutzen.

Der Siegeszug und die Zukunft von Big Data

Aufgrund der rasanten Entwicklung im Bereich der Cloud-Technologien gehört die Bewältigung der ständig wachsenden Datenflut zu den wichtigsten Aspekten bei der Konzeption digitaler Architekturen. In einer Welt, in der Transaktionen, Inventare und sogar IT-Infrastrukturen ausschließlich virtuell existieren können, bietet ein guter Big Data-Ansatz mit Daten aus vielen Quellen einen ganzheitlichen Überblick. Diese Quellen können sein:

  • Virtuelle Netzwerkprotokolle
  • Sicherheitsrelevante Ereignisse und Muster
  • Globale Netzwerkverkehrsmuster
  • Erkennung von Anomalien und Lösung
  • Compliance-Informationen
  • Kundenverhalten und Präferenztracking
  • Geolocation-Daten
  • Daten aus sozialen Kanälen für Marken-Sentiment-Tracking
  • Lagerbestände und Sendungsverfolgung
  • Andere spezifische Daten, die wichtig für Ihre Organisation sind

Selbst die vorsichtigsten Big Data-Trendanalysen gehen von einer kontinuierlichen Reduzierung lokaler, physischer Infrastrukturen und einer Zunahme virtueller Technologien aus. Dies bringt eine wachsende Abhängigkeit von Tools und Partnern mit sich, die in einer Welt Unterstützung bieten, in der Maschinen nach und nach von Bits und Bytes ersetzt werden.

Big Data ist nicht nur ein wichtiger Teil der Zukunft, sondern möglicherweise die Zukunft selbst. Die Art und Weise, wie Unternehmen, Organisationen und deren IT-Experten Aufgaben lösen, wird weiterhin von den Entwicklungen in den Daten- und IT-Technologien geprägt sein – z. B. von neuen Lösungen, um Daten zu speichern, zu bewegen und zu verstehen.

Big Data, die Cloud und serverloses Computing 

Bevor es Cloud-Plattformen gab, wurden sämtliche Geschäftsdaten lokal verarbeitet und verwaltet. Das Aufkommen Cloud-basierter Plattformen wie Microsoft Azure, Amazon AWS, Google Cloud, etc. führte zu Big Data Managed Clustern, die in der Cloud implementiert werden.

Dies brachte allerdings auch viele Herausforderungen wie die unangemessene Nutzung oder eine zu geringe oder zu starke Auslastung in bestimmten Zeiträumen mit sich. Eine serverlose Architektur ist deal, um Probleme mit Managed Clustern in den Griff zu bekommen und von folgenden Vorteilen zu profitieren:

  • Sie zahlen nur für die Anwendungen, die Sie auch nutzen – Die Speicher- und Rechenebenen sind voneinander getrennt. D. h. Sie zahlen nur, solange sich Ihre Daten auf der Speicherebene befinden und solange die erforderliche Verarbeitung dauert.
  • Kürzere Implementierungszeit – Anders als bei der Implementierung eines verwalteten Clusters, die Stunden bis Tage dauert, benötigt die serverlose Big Data-Anwendung nur ein paar Minuten.
  • Fehlertoleranz und Verfügbarkeit – Serverlose Architekturen, die von einem Cloud-Service-Provider verwaltet werden, bieten standardmäßig Fehlertoleranz und Verfügbarkeit basierend auf einem Service-Level-Agreement (SLA). Es wird also kein Administrator gebraucht.
  • Einfache Skalierung und Autoskalierung – Dank definierter Autoskalierungsregeln lassen sich die Kapazitäten für Ihre Anwendung je nach Workload aufstocken oder reduzieren. So können Sie Ihre Verarbeitungskosten erheblich senken.

Worauf sollten Sie bei einem Big Data-Integrationstool achten?

Big Data-Integrationstools können Integrationsprozesse erheblich vereinfachen. Ihr Tool sollte dabei idealerweise folgende Features bieten:

  • Viele Konnektoren: Es gibt viele unterschiedlichen Systeme und Anwendungen weltweit. Je mehr vorgefertigte Konnektoren Ihr Big Data-Integrationstool mitbringt, desto mehr Zeit spart Ihr Team.
  • Open Source: Open Source-Architekturen bieten meist mehr Flexibilität und binden Sie in der Regel nicht an einen Anbieter; außerdem besteht das Big Data-Ökosystem aus Open Source-Technologien, die Sie eventuell einsetzen möchten.
  • Portabilität: Ein wichtiger Punkt, weil immer mehr Unternehmen auf hybride Cloud-Modelle setzen, um Big Data-Integrationen nur einmal zu erstellen und sie dann von überall auszuführen – egal, ob in lokalen, hybriden oder Cloud-basierten Umgebungen.
  • Benutzerfreundlichkeit: Big Data-Integrationstools sollten einfach zu erlernen und zu benutzen sein und eine grafische Benutzeroberfläche bieten, mit der Sie ganz einfach Ihre Big Data-Pipelines visualisieren können.
  • Ein transparentes Preismodell: Ihr Anbieter sollte auf keinen Fall einen Aufpreis verlangen, wenn Sie die Anzahl Ihrer Konnektoren oder das Datenvolumen erhöhen.
  • Cloud-Kompatibilität: Ihr Big Data-Integrationstool sollte nativ in einer Single-Cloud, Multi-Cloud- oder Hybrid Cloud-Umgebung funktionieren. Außerdem sollte es in Containern laufen und Serverloses Computing nutzen können, um die Kosten Ihrer Big Data-Verarbeitung zu minimieren, sodass Sie nur für die Ressourcen zahlen, die Sie nutzen und nicht für ungenutzte Server.
  • Integrierte Datenqualität und Data Governance: Big Data-Datensätze stammen normalerweise von externen Quellen. Daher müssen die relevanten Informationen kuratiert und verwaltet werden, bevor sie Business-Benutzern zur Verfügung gestellt werden können. Anderenfalls könnte dies Ihrem Unternehmen schaden. Achten Sie bei der Auswahl von Big Data-Tools und -Plattformen darauf, dass sie über integrierte Datenqualität und Data Governance verfügen.

Big Data mit Talend

 Talend bietet robuste Big Data-Integrationstools für die Integration und Verarbeitung von Big Data. Mit diesen Talend-Tools können Dateningenieure Integrationsjobs 10 Mal schneller durchführen als mit Handcodierung – und zu einem Bruchteil der Kosten unserer Mitbewerber.

  • Nativ: Talend läuft nativ auf Cloud- und Big Data-Plattformen. Talend generiert nativen Code, der direkt in einer Cloud, serverlos oder auf einer Big Data-Plattform laufen kann, ohne dass Sie proprietäre Software auf jedem Knoten und in jedem Cluster installieren und warten müssen. So können Sie Ihre Verwaltungskosten erheblich reduzieren.
  • Open: Talend basiert auf Open Source-Technologien und offenen Standards, das heißt, wir setzen die neuesten Innovationen aus den Cloud- und Big Data-Ökosystemen ein und lassen auch unsere Kunden davon profitieren.
  • Einheitlich: Talend bietet eine zentrale Plattform und ein integriertes Portfolio für die Datenintegration (mit Datenqualität, MDM, Anwendungsintegration und Data Catalog) sowie Interoperabilität mit komplementären Technologien.
  • Preis: Die Talend-Plattform wird über eine Subskriptionslizenz bereitgestellt, die auf der Anzahl der Entwickler basiert, die auf der Plattform arbeiten, und nicht auf dem Datenvolumen oder der Anzahl der Konnektoren, CPUs oder Kerne, Cluster oder Knoten. Die Kosten pro User sind planbarer und beinhalten keine „Datensteuer“, um das Produkt zu nutzen.

Die data-auth="NotApplicable">Talend Big Data Platform bietet zusätzliche Features wie Verwaltungs- und Überwachungsfunktionen, direkt in der Plattform integrierte Datenqualität und zusätzliche Unterstützung im Web sowie per E-Mail und Telefon.

Sie bietet außerdem native Multi-Cloud-Funktionalität, Skalierbarkeit für Projekte jeder Art und 900 integrierte Konnektoren.

Mit der Talend Real-Time Big Data Platform profitieren Sie zusätzlich zu all dem von turboschnellem Echtzeit-Spark Streaming für Ihre Big Data-Projekte.

Erste Schritte mit Big Data

Probieren Sie die Talend Big Data Platform noch heute aus. Talend Big Data Platform vereinfacht komplexe Integrationen, sodass Ihr Unternehmen Spark, Hadoop, NoSQL und die Cloud effizient nutzen und schneller Erkenntnisse aus seinen Daten ziehen kann. In unserem Leitfaden Erste Schritte mit Big Data erfahren Sie, wie Sie Ihre kostenlose Testversion optimal nutzen können.

| Zuletzt aktualisiert: December 17th, 2018