Was ist maschinelles Lernen?

Das maschinelle Lernen ist eine Programmierungstechnik, die mithilfe statistischer Methoden Computern das „Lernen“ beibringt, ohne sie ausdrücklich dafür zu programmieren. Im Wesentlichen kann man mithilfe des maschinellen Lernens Computer dazu bringen, so zu lernen – und zu handeln – wie Menschen und deren Lernfähigkeit und Wissen im Laufe der Zeit eigenständig zu verbessern. Die Idee dahinter ist es, Computer zum Handeln zu bringen, ohne dass sie explizit dafür programmiert wurden. Beim maschinellen Lernen kommen Entwicklungsprogramme zum Einsatz, die je nach externem Input angepasst werden können.

Beim maschinellen Lernen kommt es darauf an, dem Computer Unmengen an Daten zur Verfügung zu stellen – denn um zu lernen, benötigen Computer Big Data.

Ein gutes Beispiel im Bereich des maschinellen Lernens sind selbstfahrende Autos. Diese verfügen über Kamera-, Radar- und Lidar-Sensorsysteme, die:

  • GPS nutzen, um den Standort zu bestimmen
  • auf die Straße achten
  • nach verschiedenen Objekten Ausschau halten, die sich hinter dem Auto oder seitlich davon befinden

All diese Informationen werden durch einen zentralen Computer verarbeitet. Der Computer nimmt laufend enorme Mengen an Daten auf und analysiert und klassifiziert diese auf ähnliche Weise wie ein menschliches Gehirn (neuronale Netzwerke). Anschließend entscheidet der Computer auf Basis mathematischer Wahrscheinlichkeiten und Beobachtungen, wie das Fahrzeug lenken bzw. wann es bremsen und beschleunigen soll, und führt es so durch seine Umgebung.

Ansehen Fundamentals of Machine Learning jetzt herunter.
Jetzt ansehen

3 Arten des maschinellen Lernens

Maschinelles Lernen ist eigentlich nichts Neues. Das erste künstliche neuronale Netzwerk (KNN) – Perceptron – wurde bereits 1958 vom Psychologen Frank Rosenblatt erfunden.

Perceptron war ursprünglich als Maschine, nicht als Algorithmus, gedacht und wurde genutzt, um die Bilderkennungsmaschine „Mark 1 Perceptron“ im Jahr 1960 zu entwickeln. Mark 1 Perceptron war der erste Computer, der KNNs nutzte, um menschliches Denken zu simulieren und durch Versuch und Irrtum zu lernen.

Mit dem Aufkommen der Open-Source-Bibliotheken und -Frameworks und der billionenfachen Zunahme der Rechenleistung von 1956 bis 2015 gehört maschinelles Lernen heute zu den Standardtechnologien. Mittlerweile kommt diese Technologie überall zum Einsatz, sei es im Finanzhandel oder bei Malware-Schutz und personalisierten Marketingaktivitäten. Unabhängig von der Komplexität lässt sich maschinelles Lernen generell in drei Kategorien einteilen:

1. Überwachtes Lernen

Das überwachte maschinelle Lernen folgt grundlegenden und strengen Regeln. Der Computer erhält Beispiele von Inputs und gewünschten Outputs und muss einen Weg finden, diese Outputs umzusetzen. Ziel für den Computer ist es, die allgemeine Regel zu erlernen, die die Lücke zwischen Input und Output schließt.

Mithilfe des überwachten Lernens lassen sich Vorhersagen zu unbekannten oder künftigen Daten treffen – dies wird prädiktive Modellierung genannt. Der Algorithmus versucht eine Funktion zu entwickeln, die den Output aus den Inputvariablen genau vorhersagt. Ein Beispiel ist die Vorhersage des Marktwerts eines Hauses (Output) auf Basis der Quadratmeter (Input) und anderer Inputs (Baujahr, Bauweise etc.)

Hier finden Sie zwei Arten des überwachten Lernens:

  • Klassifikation – die Outputvariable ist eine Kategorie.
  • Regression – die Outputvariable ist ein realer Wert.

Zu den Algorithmen des überwachten Lernens gehören Random Forests, Entscheidungsbäume, Nächste-Nachbarn-Klassifikation (k-Nearest Neighbor, kNN), lineare Regression, Naive-Bayes-Verfahren, Support-Vector-Machine (SVM), logistische Regression und Gradient-Boosting.

2. Unüberwachtes Lernen

Beim unüberwachten Lernen muss der Algorithmus eigenständig Strukturen im Input erkennen. Der Algorithmus wird hier nicht mit Labels versehen. Dies kann ein Ziel an sich sein – verborgene Muster in Daten erkennen – oder ein Mittel zum Zweck. Diese Methode nennt man auch Feature-Learning.

Ein Beispiel des unüberwachten Lernens ist der prädiktive Gesichtserkennungsalgorithmus von Facebook, der Menschen auf Fotos identifiziert.

Hier finden Sie zwei Arten des unüberwachten Lernens:

  • Clustering – Ziel ist es, Gruppierungen in den Daten zu finden.
  • Assoziation – Ziel ist es, Regeln zu finden, die große Gruppen von Daten definieren.

Zu den Algorithmen des unüberwachten Lernens gehören K-Means, hierarchische Clusteranalysen und Dimensionsreduktion.

3. Bestärkendes Lernen

Beim bestärkenden Lernen interagiert ein Computerprogramm mit einer dynamischen Umgebung, in der es eine bestimmte Aufgabe durchführen muss, wie zum Beispiel ein Fahrzeug lenken oder im Rahmen verschiedener Spiele gegen einen Gegner antreten. Das Programm erhält während der Lösung dieser Aufgabe Feedback zu guten und schlechten Aktionen (Belohnungen und Strafen) und lernt, innerhalb des gegebenen Kontextes die richtige Verhaltensweise zu bestimmen.

So ist es einem Algorithmus für bestärkendes Lernen unter Verwendung von Q-Learning – ohne Input durch einen Programmierer – 2013 bekanntlich gelungen, sechs Atari-Videospiele für sich zu entscheiden.

Hier finden Sie zwei Arten des bestärkenden Lernens:

  • Monte Carlo – Belohnungen werden ganz am Ende vergeben.
  • Temporal-Difference-Learning (TD-Learning) – Belohnungen werden nach jedem Schritt vergeben.

Zu den Algorithmen des bestärkenden Lernens gehören Q-Learning, Deep Q Network (DQN) und State-Action-Reward-State-Action (SARSA).

Maschinelles Lernen durch Wahrscheinlichkeit

Alle Formen des maschinellen Lernens beruhen auf Wahrscheinlichkeiten, genauer gesagt auf der Bayesschen Interpretation der Wahrscheinlichkeit, bei der Dinge eintreten oder nicht eintreten können.

Anhand des folgenden Beispiels wird gezeigt, wie eine Maschine lernen würde, ob die Sonne jeden Tag aufgeht oder nicht.

Tag 1: Die Sonne geht entweder auf oder nicht. Die Wahrscheinlichkeit, dass die Sonne aufgeht, liegt bei 0,5 bzw. 50 Prozent. Da nur zwei Ergebnisse möglich sind, besteht eine Wahrscheinlichkeit von eins zu zwei.

Tag 2: Weil die Sonne an Tag 1 aufgegangen ist, hat sich die Wahrscheinlichkeit verändert. Der Computer weiß jetzt, dass die Sonne schon einmal aufgegangen ist, aber es könnte sein, dass sie nicht wieder aufgeht. Die Wahrscheinlichkeit liegt jetzt bei zwei zu drei bzw. 0,66.

Tag 3 bis 6: Die Sonne geht jeden Tag auf; die Wahrscheinlichkeit steigt.

Tag 7: Am Ende der Woche liegt die Wahrscheinlichkeit, dass die Sonne am folgenden Tag aufgeht, bei 0,857 bzw. 85,7 Prozent.

Ende des Jahres: Die Sonne ist jeden Tag aufgegangen. Die Wahrscheinlichkeit, dass sie auch am folgenden Tag aufgeht, liegt jetzt bei 0,997 bzw. über 99 Prozent.

Wichtig: Die Wahrscheinlichkeit kann niemals bei 1 bzw. 100 Prozent liegen. Es besteht immer eine winzige Chance – verschwindend klein, je mehr Zeit vergeht –, dass die Sonne am nächsten Tag nicht aufgeht.

3 Arten von Machine-Learning-Algorithmen

Ein Algorithmus umfasst eine Reihe vorgegebener Aktionen, die durchgeführt werden, um ein Problem zu lösen. Computer nutzen Algorithmen, um die detaillierten Schritte zur Ausführung einer Aufgabe zu definieren. Neben den oben beschriebenen Machine-Learning-Algorithmen gibt es viele weitere Arten.

Welcher Algorithmus sich am besten für eine Aufgabe eignet, hängt von der Komplexität und der Art des Problems ab, das gelöst werden soll, wie etwa Clustering (Identifizierung von Gruppierungen in den Daten) oder Regression (Vorhersage realer Werte). Hier sind einige Beispiele für Algorithmen des maschinellen Lernens:

Entscheidungsbaum-Algorithmus

Entscheidungsbäume sind eine Art von Algorithmus, die in vielen Bereichen Verwendung findet, etwa im Einzelhandel, im Finanzsektor und in der Pharmaindustrie. Der Computer erstellt einfach einen Baum mit verschiedenen Ergebnissen, die eintreten können oder nicht. Dabei wird jedes Ergebnis bis zum Schluss verfolgt und alle möglichen Auswirkungen aufgezeichnet.

Zum Beispiel nutzen Banken Entscheidungsbaum-Algorithmen, um zu entscheiden, ob sie eine Immobilie finanzieren sollen. Arzneimittelhersteller nutzen diese Algorithmen während Arzneimitteltests, um die Wahrscheinlichkeit von Nebenwirkungen sowie die voraussichtlichen durchschnittlichen Kosten der Behandlung zu berechnen.

Random-Forest-Algorithmen

Random Forest ist ein weiterer häufig genutzter Algorithmus. Dabei werden mehrere Classification and Regression Trees (CART) erstellt, wobei jeder unterschiedliche Szenarien und Ausgangsvariablen hat. Der Algorithmus ist randomisiert (nicht die Daten) und wird für prädiktive Modellierung auf Basis von Klassifizierung und Regression genutzt.

Nehmen wir einmal an, dass Sie 1.000 Beobachtungen in einer Population mit 10 Variablen haben. Der Random-Forest-Algorithmus nimmt eine zufällige Probe von 100 Beobachtungen und fünf zufällig gewählte Ausgangsvariablen, um ein CART-Modell zu erstellen. Diesen Vorgang wiederholt er immer und immer wieder und erstellt schließlich eine endgültige Vorhersage für jede Beobachtung. Die endgültige Vorhersage ist einfach eine Funktion der Summe aller Vorhersagen.

K-Means-Algorithmus

K-Means sind unüberwachte Machine-Learning-Algorithmen, die genutzt werden, um Clustering-Probleme zu lösen. Sie dienen dazu, eine Reihe ungekennzeichneter (keine externe Klassifizierung) Datenpunkte zu klassifizieren und in Gruppen (sogenannte Cluster) zu unterteilen. Jede Iteration des Algorithmus ordnet jeden Punkt einer Gruppe mit ähnlichen Features zu. Die Datenpunkte lassen sich im Laufe der Zeit nachverfolgen, um Änderungen in den Clustern zu identifizieren.

K-Means-Algorithmen können Vermutungen darüber bestätigen, welche Arten von Gruppen in einem bestimmten Datensatz vorliegen. Darüber hinaus lassen sich damit unbekannte Cluster identifizieren. Anwendungsfälle in Unternehmen sind beispielsweise die Gruppierung des Bestands nach Verkaufszahlen und die Identifizierung von Anomalien innerhalb von Daten (z. B. Bots).

Apache Spark und maschinelles Lernen

Apache Spark ist ein extrem schnelles, verteiltes Framework für die umfangreiche Verarbeitung von Big Data. Es enthält integrierte Module für maschinelles Lernen, SQL, Streaming-Analysen (Spark Streaming) und Graphverarbeitung (GraphX).

Das Spark-Ökosystem umfasst MLlib (Machine-Learning-Library), eine Bibliothek, die Datenprozesse wie Klassifizierung, Regression und Clustering kontinuierlich beschleunigt und verbessert. Zum Beispiel unterstützt Spark intelligente Datenpipelines, die Echtzeit- und Batch-Daten für Echtzeitanalysen und brandaktuelle Business-Intelligence-Prozesse kombinieren.

Mit Talend profitieren Sie von allen Vorteilen des maschinellen Lernens.

Talend und maschinelles Lernen

Die Talend-Plattform ist das erste Big-Data-Integrationssystem auf Basis von Hadoop und Apache Spark. Vorgefertigte Drag-and-drop-Entwicklerkomponenten nutzen Spark-Machine-Learning-Klassifikatoren in einem einzigen Tool. Mithilfe grafischer Tools und Wizards, die nativen Code generieren, kann Ihre Organisation Hadoop und Apache Spark in wenigen Minuten einrichten.

Talend kann Ihr Unternehmen dabei unterstützen, die Lücke zwischen operativen Teams, IT-Mitarbeitern und Data-Scientists zu schließen und wichtige Machine-Learning-Modelle nahtlos zu implementieren. Werfen Sie einen Blick auf den Blogeintrag „How to Operationalize Machine Learning“ (So können Sie maschinelles Lernen für Ihr Unternehmen nutzen).

Um mehr über maschinelles Lernen, die Unterschiede zu künstlicher Intelligenz und Deep Learning sowie die Grundlagen der Verarbeitung natürlicher Sprachen (Natural-Language-Processing, NLP) zu erfahren, werfen Sie einen Blick auf das On-Demand-Webinar Fundamentals of Machine Learning (Grundlagen des maschinellen Lernens) von Talend.

| Zuletzt aktualisiert: January 28th, 2019