티스토리 뷰

Language/Python

Python 자연어 처리 with konlpy

KyeongRok Kim 2020. 8. 31. 16:09

수집한 데이터에서 키워드를 추출하기 위해 konlpy를 이용했습니다.

total_mafra_in_datagokr_v2.csv
0.45MB

위 csv파일은 아래와 같이 생겼습니다.

 

from konlpy.utils import pprint
from konlpy.tag import Kkma, Okt
import pandas as pd
import json

okt = Okt()

df = pd.read_csv('total_mafra_in_datagokr_v2.csv', dtype={'id':'str'})
df = df[['id', 'name', 'title1', 'title2', 'title3']]

result = []
cnt = 0
for row in df.iterrows():
    row1 = row[1]
    print(cnt, row1['name'], row1['title1'], row1['title2'], row1['title3'])

    sp_name, sp_title1, sp_title2, sp_title3 = '', '', '', ''
    try:
        id1 = row1['id']
        sp_name = okt.nouns(row1['name'])
        sp_title1 = okt.nouns(row1['title1'])
        sp_title2 = okt.nouns(row1['title2'])
        sp_title3 = okt.nouns(row1['title3'])
    except Exception as e:
        print(e)
    rr = {'id':row1['id'], 'sp_name':sp_name, 'sp_title1':sp_title1, 'sp_title2':sp_title2, 'sp_title3':sp_title3}
    result.append(rr)
    cnt+=1

open('splitted_to_keywords_nouns.json', 'w+').write(json.dumps(result))

위 code는 첨부한 csv파일에서 name, title1~3을 읽어 단어를 뽑아내는 코드 입니다.

 

에러 나는 경우

ImportError: DLL load failed while importing _jpype: DLL 초기화 루틴을 실행할 수 없습니다.

 

위 에러의 경우 

저는 Jpype1-py3 설치 했더니 로컬 해결 되었습니다.

 

 

Jpype1-py3 설치 했을때의 문제가 있었습니다. gitlab에서 빌드 하려고 할때 아래 에러가 뜨면서 빌드가 안되는 문제가 있었습니다.

 ********* DEPRECATION WARNING *********
    Warning: This version of JPype is now deprecated, see issue #29 for more details
    Warning:     https://github.com/tcalmant/jpype-py3/issues/29
    Warning:
    Warning: Please use this version instead:
    Warning:     https://github.com/jpype-project/jpype
    Warning:
    Warning: It can be installed using:
    Warning:     pip install JPype1
    ********* DEPRECATION WARNING *********
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함