티스토리 뷰
Spark을 쓰는 이유는 분석해야 할 데이터가 커지면 분석하는 속도가 느려지기 때문이다.
예를들어 1gb짜리 .csv를 분석한다고 했을 때 파이썬 pandas에서 dataframe으로 불러오려고 해도 속도가 제법 느려지는 것을 느낄 수 있다.
그래서 Spark을 이용한다.
1. Scala설치하기
2. Apache Spark 설치하기
먼저 Scala를 설치 해야 한다.
brew install scala
Scala를 설치 했으면 Spark을 설치한다.
brew install apache-spark
쉘에서 spark-shell 이라고 치면 아래와 같은 화면이 나온다.
spark-shell
spark으로 데이터를 전송 하려면 SparkSession을 이용해 명령을 전송해야 한다.
scala> spark
결과
res0: org.apache.spark.sql.SparkSession = org.apache.spark.sql.SparkSession@6e5091b0
pyspark 실행 안될 때
sudo hostname -s 127.0.0.1
Spark에서 .json 파일 읽어오기
df = spark.read.json('/Users/kyeongrok/Downloads/file_name.json')
Spark에서 .csv 파일 읽어오기
df = spark.read.csv('/Users/kyeongrok/Downloads/201911.csv')
df의 .count()하기
df.count()
jupyter notebook과 spark연동하기
먼저 pip3 install pyspark 명령어로 pyspark library를 설치한다.
from pyspark import (SparkConf, SparkContext)
conf = SparkConf().setMaster('local').setAppName('app1')
sc = SparkContext(conf = conf)
sc
결과
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 도커티슈박스
- 도커티슈케이스
- vim
- 이직
- 개발자
- docker container whale
- Sh
- shellscript
- 2017 티스토리 결산
- Linux
- docker container
- docker container tissue box
- docker container tissue
- 싱가폴
- 도커컨테이너
- docker container case
- 도커각티슈박스
- 도커각티슈케이스
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함