갈루아의 반서재

텍스트 마이닝의 왕도 '형태소 분석'과 구글 검색의 비밀 'N-Gram'

 

형태소 해석이란 일반적으로 문장을 단어로 분리해 어떤 단어가 몇 번 사용되었는지 집계하는 것을 말한다. 형태소 해석을 할려면 우선 단어의 정보가 정리된 사전 데이터가 필요하다. 기본적으로 문장 안에 있는 단어와 사전 데이터 안의 데이터가 일치하는 것을 찾아서 정리할 필요가 있기 때문이다.

실제로 구글사의 일본어 입력 개발자 중 한사람인 쿠도 다쿠씨에 의해 개발된 미캡MeCab 이라는 형태소 해석 도구로, '굳이 단언하건대, 모든 학문 중에서 통계학이 최강의 학문이다.'라는 문장을 형태소 분석해보면 아래와 같이 나타난다.

 

 명사

굳이 

명사 

 통계

 명사

 단언

명사

 학

 동사

 하건대

조사 

 이

 기호

 ,

명사

 최강

 관형사

 모든

조사

 의

 명사

 학문

명사

 학문

 명사

 중

조사

 이다

 조사

 에서

기호

 .

 

 

'통계학'은 하나의 명사로 해석했으면 하는 바람이 있지만, 어쨌든 이것을 품사별 백분율로 집계하면 다음과 같다. 

 

 품사

집계 

 명사

 7

 43.75%

 조사

 4

 25.0%

 기호

 2

 12.5%

 동사

 1

 6.25%

 부사

 1

 6.25%

 관형사

 1

 6.25%

 합계

 16

 100.0%

 

 

 

형태소 해석과는 다른 접근법으로 사전을 사용하지 않는 엔그램 N-Gram 이라고 불리는 방식도 있다. 기계적으로 중복을 허락한 N(임의의 수)문자씩 문자열을 자르고 거기서 요구하는 단어를 찾는 방식이다. 만약 N 이 5라면 '통계학이 최강의 학문이다."라는 문장으로부터 '통계학이 최', '계학이 최강','학이 최강의','이 최강의 학', ...... , '학문이다.' 같은 식으로 5글자씩 그램이 생성된다.

 

방금전의 형태소 해석에서는 '통계학'이라는 단어가 사전에 존재하지 않았기 때문에, '통계'와 '학'이 서로 다른 단어로 인식되었다. 그래서 형태소 해석을 끝낸 다음 '통계학'이라는 단어의 유무를 조사하면 '그런 단어는 존재하지 않습니다'라는 결과가 나타난다. 엔그램에서는 5글자라는 그램 이하의 글자 수인 '통계학'이라는 단어도 확실히 발견된다는 이점이 있다. 구글에서 그다지 일반적이지 않은 단어를 검색해도 해당하는 페이지가 펼쳐지는 것은 그 배후에 방대한 양의 엔그램 데이터가 존재하기 때문이다.

 

 

빅데이터를 지배하는 통계의 힘
국내도서
저자 : 니시우치 히로무 / 신현호역
출판 : 비전코리아 2013.07.30
상세보기