티스토리 뷰

파이썬을 이용한 데이터 분석 - 01 데이터란?



위 책(Python for data analysis)의 앞부분을 번역한 글이다.


데이터(Data)란? 결론부터 말하자면 '데이터 분석'에서 '데이터'란 두가지 의미로 생각하면 되는데 첫번째가 '수치화 시킬 수 있는 모든 것'이라고 할 수 있다. 여기에서 '수치화'라는 것은 '개(갯 아님)수를 셀 수 있는'이라고 생각하면 된다. 두번째는 '표 형태로 만들 수 있는 모든 데이터'라고 할 수 있다. 신문기사에서 특정 단어의 출연 빈도수를 구할 때도 결국 우리가 보게 되는 것은 표 형태가 될 것이다.


파이썬과 그 라이브러리를 이용하면 신문기사나 전세계에서 트위터에 하루동안 올라온 트윗, 페이스북에 1시간 동안 올라온 포스트 등 형태가 제각각인 데이터를 특정한 형태나 구조로 가공을 쉽게 할 수 있고 분석(개수, 평균, 표준편차)할 수 있고 그 방법을 이 책에서 다룬다는 뜻이다.



Chapter 1


이 책은 무엇에 관한 책인가?

이 책은 파이썬으로 데이터를 관리하고 처리하고 청소하는 것에 관해 볼트와 너트라고 할 수 있다. 또한 파이썬을 이용해 데이터를 다루는 어플리케이션과 함께 '과학적 컴퓨팅'이라는 주제를 다루고 있기도 하다.


이 책은 파이썬 언어와 파이썬 라이브러리에 대해 다루고 있으며 데이터 분석중 겪는 어려움을 효과적으로 풀어나갈 수 있도록 도와준다.


이 책은 이미 구현되어 있는 파이썬이라는 언어를 이용한 분석 방법에 대해 설명하고 있지는 않다.



이 책에서 '데이터'라고 이야기 하는 것은 '구조화된 데이터'이다. '구조화된 데이터'라는 말은 여러가지 형식의 일반 데이터를 표현할 때 쓰이는 추상적인 말로써 의미는 아래와 같다고 볼 수 있다.


·다차원 배열(매트릭스)



·표 형태 또는 스프레드시트 모양으로 형태가 서로 다른(스트링, 숫자, 날짜 등) 각 데이터가 칸에 들어있는 형식의 데이터로 관계형 데이터베이스에 저장되거나 탭이나 컴마 등의 구분자로 되어있는 텍스트 파일 등




·키(key)로 연관 되는 여러개 테이블에 나누어 저장된 데이터(SQL 사용자에게는 기본키 혹은 이웃키)

·일정한 혹은 일정하지 않은 시간별 데이터





위에 서술된 것 뿐만 아니라 분석하고 모델링 할 수 있는 대량의 형태가 정해져 있지 않은 데이터들도 포함한다. 이것도 아니면 데이터를 뽑아서 구조화된 형식에 맞추어 넣을 수 있는 것도 포함한다. 예를 들어 신문 기사의 단어 출현 빈도를 구할때의 신문 기사들 등도 포함된다.


엑셀 같은 스프레드 시트 프로그램 사용자들이나 다른 데이터 분석 도구를 사용해본 유저들은 이러한 데이터 형태에 익숙할 것이라고 본다.


end.





728x90
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
글 보관함