본문 바로가기

졸업프로젝트

형태소 분석기에 따라 다른 워드 클라우드 결과

KoNLPy에는 여러 형태소 분석기가 있는데요, 대표적으로 코모란(Komoran), 한나눔(Hannanum), 꼬고마(Kkma),

Okt(오픈코리아텍스트)가 있습니다.

 

Komoran의 경우 빠른 속도와 보통의 분석 품질,  사전 관리가 용이하며, 타 형태소 분석기와 달리 공백이 포함된 평태소 단위로 분석 가능하다는 특징이 있습니다.

 

Hannanum의 경우 전체 시스템이 각 모듈들(입력 필터, 문장 분리기, 형태소 분석기, 미 등록어 처리기, 형태소 분석 후 처리기, 태거)의 조합으로 구성된다는 특징이 있습니다.

 

Kkma의 경우 구분 분석기가 일부 탑재되어 있으며 세종품사태그에 가장 가깝고 분석 범주가 가장 많다는 특징을 가지고 있습니다.

 

Okt의 경우 정규화, 토큰화, 어근화가 가능하며 Okt 형태소 분석기만이 유일하게 어근화 기능을 제공합니다.

 

각 형태소분석기가 가지고 있는 특징에 따라 명사 토큰화도 미묘하게 다르고 워드클라우드 결과도 다릅니다. 

Komoran과 Hannanum은 띄어쓰기가 없는 문장에 대한 분석이 매우 취약합니다.

또한 Kkma와 Hannanum의 경우 정제된 언어가 사용되지 않는 문서에 대해 형태소 분석 정확도가 높지 않다는 문제점이 있습니다.

Okt는 미 등록어 처리와 동음이의어 문제가 있으며 분석 범주가 적은 편입니다만 다른 형태소 분석기에 비해 띄어쓰기 성능이 가장 좋으며 어간화가 가능하다는 매우 큰 장점이 있어 많이 사용하는 편 입니다.

각각의 형태소분석기 장단점을 잘 파악하시고 자신이 원하는 데이터를 얻을 수 있도록 알맞은 형태소 분석기를 선택하셔서 사용하시길 바랍니다 :)

 

 

reference :

"신조어 및 띄어쓰기 오류에 강인한 시퀀스-투-시퀀스 (Sequence-tosequence) 기반 한국어 형태소 분석기" ,최병서(2019)

"워드임베딩과 그래프 기반 준지도학습을 통한 한국어 어휘 감성 점수 산출" , ....성(2017)

https://iostream.tistory.com/144

 

한국어 형태소 분석기 성능 비교

korean-tokenizer-experiments 형태소 분석기 비교실험 환경하드웨어 (MacBook Pro Mid 2015)소프트웨어데이터실험 내용실행 시간 비교로딩 시간형태소 분석 시간문장 분석 품질 비교띄어쓰기가 없는 문장자

iostream.tistory.com

 

http://kkma.snu.ac.kr/

http://semanticweb.kaist.ac.kr/home/index.php/Home

 

Home - SWRC

Home From SWRC The Semantic Web Research Center (SWRC) is a research center committed to the study of the next-generation semantic web, and to the development of the basic infrastructural technologies to lead the coming semantic web era, based on technolog

semanticweb.kaist.ac.kr

https://velog.io/@metterian/%ED%95%9C%EA%B5%AD%EC%96%B4-%ED%98%95%ED%83%9C%EC%86%8C-%EB%B6%84%EC%84%9D%EA%B8%B0POS-%EB%B6%84%EC%84%9D-3%ED%8E%B8.-%ED%98%95%ED%83%9C%EC%86%8C-%EB%B6%84%EC%84%9D%EA%B8%B0-%EB%B9%84%EA%B5%90

 

한국어 형태소 분석기(POS) 분석 - 3편. 형태소 분석기 비교

개발: Shin285 (github에 공개), shinware개발언어: java알고리즘: HMM여러 어절을 하나의 품사로 분석 가능함으로써 형태소 분석기의 적용 분야에 따라 공백이 포함된 고유명사(영화 제목, 음식점명, 노

velog.io