본문으로 바로가기

python 네이버(naver) 크롤링 하는 코드

category Language/Python 2018.04.26 13:55

python 네이버(naver) 크롤링 하는 코드


크롤링은 데이터를 수집하는걸 크롤링이라고 한다.


그런데 데이터는 정보로 가공되기 전의 상태를 '데이터'라고 한다. 이 '데이터'를 가공을 해야 정보가 된다.


웹에서 데이터를 받아오려면 http request를 보내야 하는데 그게 아래 코드이다.


1
2
3
4
5
6
7
from urllib.request import urlopen
 
url = "https://www.naver.com/"
html = urlopen(url)
 
print(html.read())
 
cs


위 코드를 실행 하면 아래 처럼 나온다.


내용은

b'<!doctype html>\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n<html lang="ko" class="svgless">\n<head>\n<meta charset="utf-8">\n<meta name="Referrer" content="origin">\n<meta http-equiv="Content-Script-Type" content="text/javascript">\n<meta http-equiv="Content-Style-Type" content="text/css">\n<meta http-equiv="X-UA-Compatible" content=

--- 중략 ---

"IE=edge">\n<meta name="viewport" content="width=1100">\n<meta name="apple-mobile-web-app-title" \n\t\t\twindow.attachEvent("onload", loadJS);\n\t\t} else {\n\t\t\twindow.onload = loadJS;\n\t\t}\n\t\t\n\t</script>\n</body>\n</html>\n'


이런 식으로 나오는데 여기에서 필요한 내용을 뽑아내는 것을 parsing(파싱)이라고 한다.


end.





댓글을 달아 주세요