Mac, Ubuntu Spark 설치
1. Java 설치
# ubuntu
sudo apt-get install openjdk-8-jdk-headless
brew cask install java
2. Spark 가져오기
wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz
3. Spark 릴리즈 풀기
tar -xzf spark-2.2.0-bin-hadoop2.7.tgz
sudo mv spark-2.2.0-bin-hadoop2.7 /opt/spark
4. 필요한 환경 변수 설정
export SPARK_HOME=/opt/spark
export PATH=$SPARK_HOME/bin:$PATH
5. 설치 테스트
spark-submit --class org.apache.spark.examples.SparkPi \
--master local \
$SPARK_HOME/examples/jars/spark-examples*.jar 1000
6. 스파크 설치 탐색
디렉토리 | 설명 |
---|---|
bin/ | pyspark, spark-shell, spark-sql 및 sparkR 과 같은 셸 프로그램을 통해 또는 spark-submit을 사용하는 일괄 처리 모드에서 대화식으로 스파크 응용 프로그램을 실행하는 모든 명령/스크립트를 포함한다. |
conf/ | 스파크 구성 파일(spark-defaults.conf.template)을 설정할 대 사용할 수 있는 템플릿과 스파크 프로세스(spark-env.sh.template)에 필요한 환경 변수를 설정하는 데 사용되는 셸 스크립트가 들어 있다. 또한 로깅을 제어하는 구성 템플릿(log4j.properties.template), 메트릭 컬렉션(metrics.properties.template) 및 슬레이브 파일(slaves.template) 템플릿(독립실행형 모드로 실행되는 스파크 클러스터에 참여할 수 있는 슬레이브 노드를 제어한다)도 있다. |
data/ | 스파크 프로젝트 내에서 mllib, graphx 및 스트리밍 라이브러리를 테스트하는 데 사용되는 샘플 데이터세트가 들어 있다. |
examples/ | 스파크 릴리스와 함께 제공되는 모든 예제의 소스코드와 컴파일된 어셈블리(jar 파일)가 들어 있다. 샘플 프로그램은 자바, 파이썬, R 및 스칼라에 포함돼 있다. 포함된 예제의 최신 코드는 https://github.com/apache/spark/tree/master/examples에서 찾을 수 있다. |
jars/ | 스파크의 주요 어셈블리 및 snapy, py4j, parquet 등 스파크에서 사용하는 서비스를 지원하는 어셈블리가 들어 있다. 디렉토리는 기본적으로 스파크의 CLASSPATH에 포함돼 있다. |
licenses/ | 스칼라와 제이쿼리(JQuery)와 같이 따로 포함된 프로젝트를 다루는 라이선스 파일을 포함한다.이 파일은 법적 준수만을 목적으로 하며, 스파크를 실행하는 데는 필요하지 않다. |
python/ | pyspark를 실행하는 데 필요한 모든 파이썬 라이브러리를 포함한다. 일반적으로 이러한 파일에 직접 액세스할 필요는 없다. |
R/ | SparkR 패키지와 관련 라이브러리 및 문서가 들어 있다. |
sbin/ | 로컬 또는 원격으로 독립실행혀 모드로 실행되는 스파크 클러스터의 마스터 및 슬레이블 서비스를 시작 및 중지하고, YARN 및 메소스와 관련된 프로세스를 시작하는 관리 스크립트가 포함돼 있다. 독립실행형 모드에서 다중 노드 클러스터를 배포할 때 다음 절에서 이러한 스크립트 중 일부를 사용한다. |
yarn/ | YARN에서 실행되는 스파크 응용 프로그램에 대한 지원 라이브러리가 들어 있다. 스파크가 YARN 클러스터의 프로세스 간에 데이터를 이동하는 데 사용하는 셔플 서비스가 여기에 포함된다. |