티스토리 뷰
Python을 할 것인가 R을 할 것인가?
요즘 'BigData' 라는 키워드가 화두인데 쉽게 말하면 '데이터 분석'이다. 데이터 분석할 때 python 라이브러리가 좋은게 많이 나오고, R은 자체가 통계 패키지라서 그리고 무료이기도 하고 스크립트도 짤 수 있기 때문에 많이 쓰는 것 같다.
내가 요 우측 상단 공지에 프로그래밍 레슨 한다고 올려놓아서 python, r 이런거 알려달라고 가끔 메일이 와서 이 글을 쓴다.
Python하고 R 하고 얘네들은 근본적으로 출신 자체가 다르다. Python은 프로그래밍 언어이고, R은 통계용 언어이다. 근데 파이썬이 문자 처리 하는데 좋고 라이브러리도 데이터 분석 쪽으로 개발된게 많아서 데이터 분석용으로 많이 쓰는 것 같다.
일반적으로 인간의 눈과 뇌가 인식 할 수 있는 데이터 레코드 수는 컬럼 수에 따라서 차이가 있긴 하겠지만 보통 만건정도 라고 생각한다. 만건정도는 요즘 pc성능도 좋으니까 엑셀로도 어찌어찌 돌릴 수 있긴 할텐데 컬럼수가 많으면 그나마도 돌리기 힘들고 이걸 자동채우기 핸들로 긁을라면 만건은 한참 긁어야 한다.
이러한 물리적인 한계가 있기도 해서 그나마 배우기 쉬운 파이썬이 그리고 데이터 타입도 여러개 지원 하는 파이썬으로 데이터 분석을 하는 것 같고 R같은 경우는 계산을 빨리 해주니까 쓰는 것 같다.
난 지금 개발자로 일하고 있기 때문에 R보다는 Python이 더 익숙하지만 데이터 볼륨이 크고 계산을 해야하는 식이 여러개라면(이를테면 sum이라도 10만건 정도 해야 한다고 하면) R로 해야겠다는 생각을 할 것이다.
계산이 0.1초 만에 되는지, 0.001초만에 되는지에 따라 '핡핡 겁나 빠르다능!! R짱!!' 이런... 나 같은 개발자 공돌이적인 마인드를 가진 대학원생 정도나 R을 좋아하지 않을까 싶은데... 읭?
여기 까지는 내 생각이고 아래는 구글 검색에서 첫 페이지에 나오는 데이터 분석을 가르치는 미국 어떤 교수님이 써놓은 글을 참고해서 써 놓은 글이다.
end.
아래 링크에서 중요하다고 생각하는 부분을 번역 했다.
http://www.dataschool.io/python-or-r-for-data-science/
Python을 할 것인가 R을 할 것인가
프로그래밍을 해본 경험이 있는가?
프로그래밍을 해본 경험이 있다면 파이썬을 하는게 좋은 것 같다. 왜냐하면 파이썬 문법은 다른 프로그래밍 문법하고 비슷하므로 적응하기가 더 좋다. 프로그래밍을 해본 경험이 없으면 둘 다 비슷한 것 같다.
연구를 할 용도인지 실무를 할 용도인지?
기준이 좀 애매하긴 하다. 연구인지 실무인지를 떠나서 통계적인 분석을 하려면 R이 좋고 뭘 만들어 내야 하는 경우라면 Python이 좋다.
R이 매력적인가 Python이 매력적인가?
R의 사이트 디자인은 별로다. 아니 뭐가 없다. 반면에 Python은 R에 비해서 사이트도 예쁘게 잘 해놓았고 문서도 깔끔하게 정리 해놓았다. 접근성은 Python이 더 좋은 것 같다.
데이터 클리닝(data cleaning)할 때 좋은 언어는?
데이터 클리닝은 raw data(가공 하지 않은 널려 있는 데이터들)를 정리해서 사용할 수 있을 정도로 가공하는 작업을 말한다. 이거 할 때는 Python이 좋다. 왜냐하면 Python은 데이터 타입이 여러가지 이고(R은 숫자랑 문자 정도만 있는 듯) 정규식(문자에서 패턴 찾아내는 것)을 지운 하기 때문이다.
데이터 탐색(data exploration) 할 때 좋은 언어는?
데이터 탐색이란 데이터를 읽어와서 시각화 하는 작업이라고 볼 수 있다.
이 작업을 하는데에는 파이썬이 좀 더 좋은 것 같다. python의 pandas라는 패키지가 있는데 이 패키지가 참 좋기 때문이다. R에도 dplyr이라는 패키지가 있는데 panada에 비해서는 할 수 있는게 적다. 대신 dplyr은 배우기 쉬운 장점이 있지만 그만큼 단순해서 불편한 것도 있다.
'Language > Python' 카테고리의 다른 글
python 별 찍기 (0) | 2015.09.05 |
---|---|
Python으로 data 분석을 해보자 - 제2편 python data분석용 libraries (2) | 2015.07.08 |
Sublime text 4 vim모드, python build script (3) | 2015.02.27 |
Python으로 놀아보자 - 제4편 엑셀 제곱 그래프를 그리는 데이터를 만들어보자 (2) | 2014.02.18 |
python으로 db와 연동해서 Excel File로 출력하기 (0) | 2014.02.13 |
- Total
- Today
- Yesterday
- 이직
- 2017 티스토리 결산
- shellscript
- docker container tissue
- vim
- 도커티슈케이스
- 도커컨테이너
- docker container tissue box
- Linux
- 도커티슈박스
- docker container case
- docker container
- docker container whale
- Sh
- 개발자
- 도커각티슈케이스
- 싱가폴
- 도커각티슈박스
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |