티스토리 뷰

정규식 이용하기

https://krksap.tistory.com/989

Selenium(셀레늄)

krksap.tistory.com/1580

Multi Threading

krksap.tistory.com/1714

bs4에서 .text했을 때 \n을 넣어서 뽑고 싶은 경우

아래 div에서 .text를 하면 '많은 것을 생각케 하는미국교포가 올린 재미 있는 만화' 이렇게 한줄로 붙어서 나옵니다.

<div class="txtBody">많은 것을 생각케 하는<br/>미국교포가 올린 재미 있는 만화<br/><br/></div>

그런데 실제로는 아래와 같이 \n가 들어있습니다.

많은 것을 생각케 하는
미국교포가 올린 재미 있는 만화

그래서 엘리먼트를 한줄씩 돌면서 뽑아서 파싱을 해주어야 하는데 이 때 .descendants를 씁니다.

def get_content(txtBody):
    print(txtBody)
    for e in txtBody.descendants:
        print(e)

결과

많은 것을 생각케 하는  
<br/>
미국교포가 올린 재미 있는 만화

 

dict Iterator

dict순환

d = {'id':'1', 'name':'krk'}
for key, value in d.items():
	print(key, value)

 

 

Crawl 해놓은 파일들 dir에서 이름 뽑기

import glob
fileList = glob.glob('dir_name'+"*.*")

for fileName in fileList:
    print(fileName)

print(len(fileList))

ex) 같은 dir의 7727806/html에서 .html 확장자인 모든 파일

import glob
fileList = glob.glob('./7727806/html/'+"*.html")

for fileName in fileList:
    print(fileName)

print(len(fileList))

glob를 이용한다. 위 예제는 /7727806/html에 있는 모든 .html 파일 이름을 출력하는 예제입니다.

File size check(파일 사이즈 첵)

import os
file_size = os.path.getsize(fileName)

크롤 한 페이지의 파일 사이즈가 0이면 파싱을 하지 않는 로직을 짤 때 필요합니다.

Dir만들기

import os

path = os.getcwd()
print ("The current working directory is %s" % path)

os.makedirs(path+'/딸기')

현재 dir에 '딸기'라는 dir만들기

import os

path = os.getcwd()

os.makedirs(path+'/참외/433799')

현재 dir에 '참외'라는 dir을 만들고 그 하위 dir로 '433799'라는 dir만들기

import os

path = os.getcwd()
print ("The current working directory is %s" % path)

target_path = path+'/참외/433799'

print(os.path.isdir(target_path))

현재 dir기준으로 '/참외/433799'라는 dir가 있는지 check해줍니다.

import os
path = os.getcwd()
target_path = path+'/참외/433798'

if not os.path.isdir(target_path):
    print(target_path + ' is not exist')

위 결과가 False인 경우 메세지를 출력해줍니다. 앞에 로직들을 이용해 target_dir가 없으면 만들라는 로직을 구현할 수 있습니다.

차집합

a = {1, 2, 3}
b = {2, 3}
print(a - b)
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/03   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함