Programmierblog von Johannes Dienst

Apache Spark 2.2.0: CSV-Dateien einlesen, bereinigen und erste Analysen durchführen

Posted by in Allgemein

Nachdem ich in meinem letzten Blog die Installation von Apache 2.2.0 unter Linux erklärt habe, will ich heute ein kleines Anwendungsbeispiel besprechen. Der Datensatz den ich verwende, enthält die Ergebnisse des Stackoverflow Developer Surveys 2017 im CSV-Format. Die Spark-Shell Verwendet man die Spark-Shell, dann brauchen die SparkSession und der SparkContext nicht initialisiert werden. Erstere wird in diesem Blog verwendet, um die Daten einzulesen, zu bereinigen und schließlich eine erste einfache Analyse durchzuführen. Die Frage, die ich mir gestellt habe, war: Was motiviert eigentlich Entwickler? Dazu habe ich den Fragenkatalog durchforstet…read more

0

Installation Apache Spark 2.2.0 (Linux)

Posted by in Allgemein, Grundlagen

Seit knapp einem Jahr will ich mit Apache Spark herumspielen. Bloß die richtige Spielwiese hat mir bisher gefehlt 😉 . Inzwischen habe ich sie gefunden, da ich für einen Blogpost die Ergebnisse des Stack Overflow Developer Survey 2017 analysieren wollte. In den nächsten Abschnitten beschreibe ich die Installation der im Moment aktuellsten Version 2.2.0 auf Linux. Sollte jemand unbedingt eine Anleitung für Windows benötigen, dann schreibt es in die Kommentare. Ich liefere sie gerne nach. JDK 8 installieren Zuerst gilt es, das Java 8 JDK zu installieren. Das bekommt man…read more

1