Monat: March 2018

Wissenswertes über die Partitionierung mit Apache Spark: eine Einführung

Die Resilient Distributed Datasets (RDD) von Apache Spark sind Sammlungen verschiedenartiger Daten, die so groß sind, dass sie nicht auf einen einzelnen Node passen und deshalb am besten durch Partitionierung auf mehrere Nodes verteilt werden. Apache Spark nimmt die Partitionierung von RDDs und ihre Verteilung auf Nodes automatisch vor. Die RDDs werden “faul“ ausgewertet, d. h., ihre […]