티스토리 뷰

Spark을 쓰는 이유는 분석해야 할 데이터가 커지면 분석하는 속도가 느려지기 때문이다.

예를들어 1gb짜리 .csv를 분석한다고 했을 때 파이썬 pandas에서 dataframe으로 불러오려고 해도 속도가 제법 느려지는 것을 느낄 수 있다.

그래서 Spark을 이용한다.

1. Scala설치하기
2. Apache Spark 설치하기

먼저 Scala를 설치 해야 한다.

brew install scala

Scala를 설치 했으면 Spark을 설치한다.

brew install apache-spark

쉘에서 spark-shell 이라고 치면 아래와 같은 화면이 나온다.

spark-shell

spark으로 데이터를 전송 하려면 SparkSession을 이용해 명령을 전송해야 한다.

scala> spark

결과

res0: org.apache.spark.sql.SparkSession = org.apache.spark.sql.SparkSession@6e5091b0

pyspark 실행 안될 때

sudo hostname -s 127.0.0.1

Spark에서 .json 파일 읽어오기

df = spark.read.json('/Users/kyeongrok/Downloads/file_name.json')

Spark에서 .csv 파일 읽어오기

df = spark.read.csv('/Users/kyeongrok/Downloads/201911.csv')

df의 .count()하기

df.count()

jupyter notebook과 spark연동하기

먼저 pip3 install pyspark 명령어로 pyspark library를 설치한다.

from pyspark import (SparkConf, SparkContext)

conf = SparkConf().setMaster('local').setAppName('app1')

sc = SparkContext(conf = conf)
sc

결과

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함