미캡
니시우치 히로무, 「빅데이터를 지배하는 통계의 힘」- 통계학의 여섯가지 활용 분야(텍스트 마이닝)
니시우치 히로무, 「빅데이터를 지배하는 통계의 힘」- 통계학의 여섯가지 활용 분야(텍스트 마이닝)
2014. 4. 30.텍스트 마이닝의 왕도 '형태소 분석'과 구글 검색의 비밀 'N-Gram' 형태소 해석이란 일반적으로 문장을 단어로 분리해 어떤 단어가 몇 번 사용되었는지 집계하는 것을 말한다. 형태소 해석을 할려면 우선 단어의 정보가 정리된 사전 데이터가 필요하다. 기본적으로 문장 안에 있는 단어와 사전 데이터 안의 데이터가 일치하는 것을 찾아서 정리할 필요가 있기 때문이다. 실제로 구글사의 일본어 입력 개발자 중 한사람인 쿠도 다쿠씨에 의해 개발된 미캡MeCab 이라는 형태소 해석 도구로, '굳이 단언하건대, 모든 학문 중에서 통계학이 최강의 학문이다.'라는 문장을 형태소 분석해보면 아래와 같이 나타난다. 명사 굳이 명사 통계 명사 단언 명사 학 동사 하건대 조사 이 기호 , 명사 최강 관형사 모든 조사 의 명사 ..