티스토리 뷰
파이썬을 이용한 데이터 분석 - 01 데이터란?
위 책(Python for data analysis)의 앞부분을 번역한 글이다.
데이터(Data)란? 결론부터 말하자면 '데이터 분석'에서 '데이터'란 두가지 의미로 생각하면 되는데 첫번째가 '수치화 시킬 수 있는 모든 것'이라고 할 수 있다. 여기에서 '수치화'라는 것은 '개(갯 아님)수를 셀 수 있는'이라고 생각하면 된다. 두번째는 '표 형태로 만들 수 있는 모든 데이터'라고 할 수 있다. 신문기사에서 특정 단어의 출연 빈도수를 구할 때도 결국 우리가 보게 되는 것은 표 형태가 될 것이다.
파이썬과 그 라이브러리를 이용하면 신문기사나 전세계에서 트위터에 하루동안 올라온 트윗, 페이스북에 1시간 동안 올라온 포스트 등 형태가 제각각인 데이터를 특정한 형태나 구조로 가공을 쉽게 할 수 있고 분석(개수, 평균, 표준편차)할 수 있고 그 방법을 이 책에서 다룬다는 뜻이다.
Chapter 1
이 책은 무엇에 관한 책인가?
이 책은 파이썬으로 데이터를 관리하고 처리하고 청소하는 것에 관해 볼트와 너트라고 할 수 있다. 또한 파이썬을 이용해 데이터를 다루는 어플리케이션과 함께 '과학적 컴퓨팅'이라는 주제를 다루고 있기도 하다.
이 책은 파이썬 언어와 파이썬 라이브러리에 대해 다루고 있으며 데이터 분석중 겪는 어려움을 효과적으로 풀어나갈 수 있도록 도와준다.
이 책은 이미 구현되어 있는 파이썬이라는 언어를 이용한 분석 방법에 대해 설명하고 있지는 않다.
이 책에서 '데이터'라고 이야기 하는 것은 '구조화된 데이터'이다. '구조화된 데이터'라는 말은 여러가지 형식의 일반 데이터를 표현할 때 쓰이는 추상적인 말로써 의미는 아래와 같다고 볼 수 있다.
·다차원 배열(매트릭스)
·표 형태 또는 스프레드시트 모양으로 형태가 서로 다른(스트링, 숫자, 날짜 등) 각 데이터가 칸에 들어있는 형식의 데이터로 관계형 데이터베이스에 저장되거나 탭이나 컴마 등의 구분자로 되어있는 텍스트 파일 등
·키(key)로 연관 되는 여러개 테이블에 나누어 저장된 데이터(SQL 사용자에게는 기본키 혹은 이웃키)
·일정한 혹은 일정하지 않은 시간별 데이터
위에 서술된 것 뿐만 아니라 분석하고 모델링 할 수 있는 대량의 형태가 정해져 있지 않은 데이터들도 포함한다. 이것도 아니면 데이터를 뽑아서 구조화된 형식에 맞추어 넣을 수 있는 것도 포함한다. 예를 들어 신문 기사의 단어 출현 빈도를 구할때의 신문 기사들 등도 포함된다.
엑셀 같은 스프레드 시트 프로그램 사용자들이나 다른 데이터 분석 도구를 사용해본 유저들은 이러한 데이터 형태에 익숙할 것이라고 본다.
end.
'Language > Python' 카테고리의 다른 글
파이썬을 이용한 데이터 분석 - 03 Python Project생성 및 'hello world'출력 (0) | 2015.11.29 |
---|---|
파이썬을 이용한 데이터 분석 - 02 Python기초 tool 설치 (0) | 2015.11.29 |
python 별 찍기 (0) | 2015.09.05 |
Python으로 data 분석을 해보자 - 제2편 python data분석용 libraries (2) | 2015.07.08 |
Python을 할 것인가 R을 할 것인가? (0) | 2015.06.20 |
- Total
- Today
- Yesterday
- Sh
- 개발자
- 2017 티스토리 결산
- Linux
- docker container case
- 도커티슈케이스
- docker container tissue
- 도커티슈박스
- docker container whale
- 도커각티슈박스
- 도커컨테이너
- 도커각티슈케이스
- shellscript
- 이직
- vim
- docker container tissue box
- 싱가폴
- docker container
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |