Installation Apache Spark 2.2.0 (Linux)

Posted by in Allgemein, Grundlagen

Seit knapp einem Jahr will ich mit Apache Spark herumspielen. Bloß die richtige Spielwiese hat mir bisher gefehlt 😉 . Inzwischen habe ich sie gefunden, da ich für einen Blogpost die Ergebnisse des Stack Overflow Developer Survey 2017 analysieren wollte.

In den nächsten Abschnitten beschreibe ich die Installation der im Moment aktuellsten Version 2.2.0 auf Linux. Sollte jemand unbedingt eine Anleitung für Windows benötigen, dann schreibt es in die Kommentare. Ich liefere sie gerne nach.

JDK 8 installieren

Zuerst gilt es, das Java 8 JDK zu installieren. Das bekommt man zurzeit noch ohne Anmeldung auf der offiziellen Downloadseite von Oracle. Ich bevorzuge für Linux die Version als tar.gz, da ich den Installationsort genau steuern kann.

Wichtig: Das jetzt aktuelle JDK 9 funktioniert nicht, da Apache Spark in der Version 2.2.0 nicht mit Java 9 kompatibel ist (Glaubt mir, ich habe es ausprobiert 😉 )

Das tar.gz verschiebe ich nach /opt/ und entpacke es dort. Je nach Version liegt dann ein Ordner mit dem Namen jdk1.8.X_XXX in /opt/; Bei mir ist das jdk1.8.0_111.

Anschließend gilt es, Java im Pfad verfügbar zu machen. Um flexibel zwischen Java-Versionen hin und herschalten zu können, erstelle ich zu erst einen Link mit dem Namen java in /opt/ und anschließend setze ich einen Link auf /opt/java/ von einem Ordner, der sich im Pfad befindet. (Tipp: Im Terminal $PATH eingeben, dann werden die entsprechenden Ordner ausgegeben).

Als Test kann der folgende Befehl eingegeben werden, der die Java-Version ausgibt:

Apache Spark Download

Apache Spark gibt es auf der Downloadseite des Projekts. Zu beachten ist, dass die Version Pre-built for Apache Hadoop 2.7 and later ausgewählt wird. Anschließend kann das tar.gz heruntergeladen werden.

Dieses wird, wie Java zuvor, nach /opt/ verschoben und dort entpackt. Um etwas Abwechslung in die Sache zu bringen, soll der Pfad aber diesmal über die bashrc gesetzt werden. Aber bitte die globale Variante, dass es auch für alle Benutzer gilt 🙂 . Dazu werden in der Datei /etc/bash.bashrc die folgenden zwei Zeilen am Ende angehängt.

Um die Änderungen in der aktuellen Shell gleich anzuwenden, kann die bashrc des Benutzers ausgeführt werden:

Anschließend kann die Spark-Shell gestartet werden:

Fertig ist die Installation von Apache Spark 2.2.0.

Viel Spaß damit!