티스토리 뷰
정규식 이용하기
https://krksap.tistory.com/989
Selenium(셀레늄)
Multi Threading
bs4에서 .text했을 때 \n을 넣어서 뽑고 싶은 경우
아래 div에서 .text를 하면 '많은 것을 생각케 하는미국교포가 올린 재미 있는 만화' 이렇게 한줄로 붙어서 나옵니다.
<div class="txtBody">많은 것을 생각케 하는<br/>미국교포가 올린 재미 있는 만화<br/><br/></div>
그런데 실제로는 아래와 같이 \n가 들어있습니다.
많은 것을 생각케 하는
미국교포가 올린 재미 있는 만화
그래서 엘리먼트를 한줄씩 돌면서 뽑아서 파싱을 해주어야 하는데 이 때 .descendants를 씁니다.
def get_content(txtBody):
print(txtBody)
for e in txtBody.descendants:
print(e)
결과
많은 것을 생각케 하는
<br/>
미국교포가 올린 재미 있는 만화
dict Iterator
dict순환
d = {'id':'1', 'name':'krk'}
for key, value in d.items():
print(key, value)
Crawl 해놓은 파일들 dir에서 이름 뽑기
import glob
fileList = glob.glob('dir_name'+"*.*")
for fileName in fileList:
print(fileName)
print(len(fileList))
ex) 같은 dir의 7727806/html에서 .html 확장자인 모든 파일
import glob
fileList = glob.glob('./7727806/html/'+"*.html")
for fileName in fileList:
print(fileName)
print(len(fileList))
glob를 이용한다. 위 예제는 /7727806/html에 있는 모든 .html 파일 이름을 출력하는 예제입니다.
File size check(파일 사이즈 첵)
import os
file_size = os.path.getsize(fileName)
크롤 한 페이지의 파일 사이즈가 0이면 파싱을 하지 않는 로직을 짤 때 필요합니다.
Dir만들기
import os
path = os.getcwd()
print ("The current working directory is %s" % path)
os.makedirs(path+'/딸기')
현재 dir에 '딸기'라는 dir만들기
import os
path = os.getcwd()
os.makedirs(path+'/참외/433799')
현재 dir에 '참외'라는 dir을 만들고 그 하위 dir로 '433799'라는 dir만들기
import os
path = os.getcwd()
print ("The current working directory is %s" % path)
target_path = path+'/참외/433799'
print(os.path.isdir(target_path))
현재 dir기준으로 '/참외/433799'라는 dir가 있는지 check해줍니다.
import os
path = os.getcwd()
target_path = path+'/참외/433798'
if not os.path.isdir(target_path):
print(target_path + ' is not exist')
위 결과가 False인 경우 메세지를 출력해줍니다. 앞에 로직들을 이용해 target_dir가 없으면 만들라는 로직을 구현할 수 있습니다.
차집합
a = {1, 2, 3}
b = {2, 3}
print(a - b)
728x90
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 도커각티슈박스
- 도커컨테이너
- 이직
- 도커각티슈케이스
- 개발자
- 싱가폴
- docker container case
- 도커티슈케이스
- docker container tissue
- Linux
- docker container
- vim
- 도커티슈박스
- docker container tissue box
- shellscript
- docker container whale
- 2017 티스토리 결산
- Sh
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
글 보관함