728x90
Document-term matrix 를 행렬로 변환하고, 컬럼끼리 값을 합하여 출현빈도를 구할 수 있다.
> freq <- colSums(as.matrix(dtm))
> length(freq)
[1] 531
위의 freq 를 정렬함으로써, 출현 빈도가 가장 높은 term과 가장 낮은 term을 구할 수 있다.
> ord <- order(freq)
> freq[head(ord)] // # Least frequent terms
(sample @coordinator @delighted @she @two 10,000.1 1 1 1 1 1
> freq[tail(ord)] // # most frequent terms
have will you that and the
15 15 27 51 56 71
> freq[tail(ord,10)] // 갯수 지정도 가능
all but draft this have will you that and the
10 11 11 13 15 15 27 51 56 71
728x90
'프로그래밍 Programming' 카테고리의 다른 글
10. 행렬로 전환하여 CSV 포맷으로 저장하기 Conversion to Matrix and Save to CSV (0) | 2014.11.22 |
---|---|
09. term의 출현빈도에 대한 분포 구하기 Distribution of Term Frequencies (0) | 2014.11.22 |
07. Document-Term행렬 만들기 Creating a Document-Term Matrix (0) | 2014.11.22 |
06. Stemming 어간추출 (0) | 2014.11.22 |
05. Preparing the Corpus - 특정 변환 (0) | 2014.11.22 |