728x90
등장빈도에 따른 term 조회는 findFreqTerms()를 이용한다.
> findFreqTerms(dtm,lowfreq=1000) // 최소 1,000번 이상 등장한 term, 없다.
character(0)
> findFreqTerms(dtm,lowfreq=10) // 10번 이상 나온 term
[1] "about" "all" "and" "but" "draft" "have" "that" "the" "this"
[10] "will" "you"
We can also nd associations with a word, specifying a correlation limit.
특정 단어와의 상관도를 기준으로한 조회도 가능하다.
findAssocs() 를 이용하는 것으로, 두 단어가 항상 같이 등장하면 그 값은 1.0 그리고 절대 같이 등장하지 않으면 0.0 이다.
이를 통해 두 단어가 해당 corpus 내에서 얼마만큼의 상관성을 가지는지 알 수 있다.
> findAssocs(dtm, "way", corlimit=0.78)
way
yes. 0.85
strickland: 0.81
able 0.78
about 0.78
about, 0.78
absence 0.78
728x90
'프로그래밍 Programming' 카테고리의 다른 글
14. 워드 출현빈도 그래프로 나타내기 Plotting Word Frequencies (0) | 2014.11.26 |
---|---|
13. 상관관계 그래프로 보여주기 Correlations Plots (1) | 2014.11.26 |
11. Removing Sparse Terms (0) | 2014.11.25 |
리눅스 방화벽 설정 iptables (0) | 2014.11.25 |
ftp 프로그램 파일질라 FileZilla 편집기 설정변경방법 (0) | 2014.11.25 |