Spark설치하기, 쓰는 이유, 파일 불러와서 .count()

티스토리 뷰

카테고리 없음

KyeongRok Kim 2020. 7. 18. 19:46

Spark을 쓰는 이유는 분석해야 할 데이터가 커지면 분석하는 속도가 느려지기 때문이다.

예를들어 1gb짜리 .csv를 분석한다고 했을 때 파이썬 pandas에서 dataframe으로 불러오려고 해도 속도가 제법 느려지는 것을 느낄 수 있다.

그래서 Spark을 이용한다.

1. Scala설치하기
2. Apache Spark 설치하기

먼저 Scala를 설치 해야 한다.

brew install scala

Scala를 설치 했으면 Spark을 설치한다.

brew install apache-spark

쉘에서 spark-shell 이라고 치면 아래와 같은 화면이 나온다.

spark-shell

spark으로 데이터를 전송 하려면 SparkSession을 이용해 명령을 전송해야 한다.

scala> spark

결과

res0: org.apache.spark.sql.SparkSession = org.apache.spark.sql.SparkSession@6e5091b0

pyspark 실행 안될 때

sudo hostname -s 127.0.0.1

df = spark.read.json('/Users/kyeongrok/Downloads/file_name.json')

df = spark.read.csv('/Users/kyeongrok/Downloads/201911.csv')

df.count()

먼저 pip3 install pyspark 명령어로 pyspark library를 설치한다.

from pyspark import (SparkConf, SparkContext)

conf = SparkConf().setMaster('local').setAppName('app1')

sc = SparkContext(conf = conf)
sc

결과

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함