티스토리 뷰

크롤링 테크닉

https://krksap.tistory.com/1733


크롤링(Crawling)이란? 또는 파싱(Parsing)이란? 스크래핑이란?


크롤링(Craling)이란?

크롤링은 웹 크롤러(web crawling)에서 출발한 말로 크롤러는 무수히 많은 인터넷 상의 페이지(문서, html 등)를 수집해서 분류하고 저장한 후에 나중에 쉽게 찾아볼 수 있도록 하는 역할을 하는 일종의 로봇입니다. 크롤링은 웹 상의 문서를 수집해주는 작업을 크롤링이라고 합니다.


다이아몬드 광산을 예를 들면 20만평짜리 광산이 있는데 이 중에 다이아몬드가 주로 나오는 곳이 입구에서 직진해서 200미터 떨어진 부분과, 입구에서 오른쪽으로 꺾어서 400미터 떨어진 부분과 같은 정보의 위치 정보 등을 수집하는 것이 전통적인 크롤러의 역할이지만 요즘은 데이터를 수집하는 기능을 크롤러라고 많이 이야기 합니다.


파싱(Parsing)이란?

파싱(Parsing)은 어떤 페이지(문서, html 등)에서 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보로 가공하는 것을 말합니다. 다이아몬드가 많이 나오는 위치로 이동을 한 후에 돌을 캐고 다이아몬드만 쏙쏙 뽑아서 보석으로 가공하는 과정하고 비슷하다고 보면 됩니다.


스크래핑(Scraping) 이란?

데이터를 수집하는 모든 작업을 말합니다.



'데이터분석'에 대한 이야기가 많이 나오면서 크롤링, 파싱에 대해 궁금해 하는 사람들이 많이 있고  크롤러, 파서, 스크래퍼를 주로 개발 하다보니 미묘한 차이가 궁금해서 한번 찾아보았습니다.


요즘은 인터넷에서 프로그램으로 데이터를 추출해서 사용하는 작업을 크롤링, 파싱 등으로 혼용해서 쓰는 것 같습니다. 경계가 모호한 말이기도 하고 크롤러를 만들다 보면 파싱 기능이 들어가고 파서를 만들려면 크롤링 하는 기능이 일부 들어가기도 하는 등의 일도 많기 때문입니다.


출처는 위키피디아.

https://en.wikipedia.org/wiki/Web_crawler#Nomenclature

https://en.wikipedia.org/wiki/Parsing



아래는 크롤링 관련해서 쓴 제 책과 동영상 강의 입니다.~


파이썬으로 크롤러 만들기(Youtube 동영상 강의)


파이썬 크롤링 - 한입에 웹 크롤링

http://www.yes24.com/24/goods/64573282?scode=032&OzSrank=1

저자 : 김경록




공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/03   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함