: 텍스트 요약을 위해 genism에 대해 알아 보겠다.

 

1. gensim 이란?

 : 외부 라이브러리로 자연어 처리를 위해 사용하는 머신러닝 라이브러리다. 주제 모델링, 문서 인덱싱, 텍스트 유사성 찾기에 많이 사용 된다. 문서요약을 위해 summarization 모듈을 사용할 예정이다. 4.X이 버전을 설치해야 summarization 사용이 가능하다.

 

2. gensim 세팅

 : gensim 3.7.3 버전을 설치해서 사용할 예정이다. 아래 명령어를 terminal 창에 입력해서 gensim 을 설치한다.

pip install gensim==3.7.3

 

 아래 명령어를 입력해서 뜨는 list에서 설치가 제대로 됐는지 확인한다.

pip list

# 결과 #
Package    Version
---------- -------
gensim     3.7.3

https://github.com/Kyubyong/wordvectors 링크로 들어가서 ko.zip 파일을 다운 받아야한다. 링크로 들어가서 스크롤을 내리다보면 Korea(w) 가 보인다 click 하자

 

 Korea (w)를 누르면 아래와 같은 화면이 뜬다. 우측 상단에 다운로드 버튼을 클릭다.

 아래와 같은 창이 뜨면 "무시하고 다운로드" 를 클릭힌다. 파일을 현재 작업하는 python file이 있는 곳으로 옮기고 압축을 푼다.

 이제 gensim을 사용할 준비가 되었다. 다음 장에서 실습을 통해 문서요약을 진행해 보겠다.

 

+ Recent posts