'빈도' 태그의 글 목록

빈도

갈루아의 반서재

2014. 11. 27.

Word Clouds 의 기타옵션 Reducing Clutter With Max Words - 표시될 단어의 갯수를 max.words 를 통해 늘리거나 줄일 수 있다.> set.seed(142)> wordcloud(names(freq), freq, max.word= 100) Reducing Clutter With Min Freq - 표시될 갯수를 제한하는 또 다른 방법은 min.freq 를 이용하는 것이다. 아래 예제는 최소 12번 이상 언급되는 단어들만 나타나도록 했다.> set.seed(142)> wordcloud(names(freq), freq, min.freq= 9) Adding Some Colour - Color-Brewer (Neuwirth, 2011)의 brewer.pal() 를 이용하여 색..

13. 상관관계 그래프로 보여주기 Correlations Plots

2014. 11. 26.

Rgraphviz 는 corpus 내 선택된 단어들간의 상관관계를 네트워크 그래프로 보여주는 기능을 한다. 아래는 10번 이상 언급된 단어들 중 상관관계가 0.5 이상인 5개의 단어들 간의 관계를 보여주는 그래프이다. 상관도라든지 빈도 등의 옵션이 주어지지 않았을 때 기본값은 20번 이상 언급, 그리고 0.7 의 상관도이다. > plot(dtm, terms=findFreqTerms(dtm, lowfreq=10)[1:5], corThreshold=0.5)Loading required package: RgraphvizLoading required package: graphLoading required package: grid

12. 등장빈도 및 단어간 상관도에 의거한 term 조회 Identifying Frequent Items and Associations

2014. 11. 25.

등장빈도에 따른 term 조회는 findFreqTerms()를 이용한다. > findFreqTerms(dtm,lowfreq=1000) // 최소 1,000번 이상 등장한 term, 없다.character(0)> findFreqTerms(dtm,lowfreq=10) // 10번 이상 나온 term [1] "about" "all" "and" "but" "draft" "have" "that" "the" "this" [10] "will" "you" We can also nd associations with a word, specifying a correlation limit.특정 단어와의 상관도를 기준으로한 조회도 가능하다. findAssocs() 를 이용하는 것으로, 두 단어가 항상 같이 등장하면 그 값은 1..

09. term의 출현빈도에 대한 분포 구하기 Distribution of Term Frequencies

2014. 11. 22.

앞에서 살펴본 term의 출현 빈도에 대한 분포를 구한다 > head(table(freq),15) // Frequency of frequenciesfreq 1 2 3 4 5 6 7 8 9 10 11 13 15 27 51 // 그러니깐 1번 나오는 용어가 362개, 2번 나오는 용어가 82개와 같은 식362 82 31 16 8 11 6 3 1 2 2 1 2 1 1 > tail(table(freq),15)freq 3 4 5 6 7 8 9 10 11 13 15 27 51 56 71 // 71번 나오는 용어는 1개와 같은 식31 16 8 11 6 3 1 2 2 1 2 1 1 1 1 >

08. Exploring the Document Term Matrix

2014. 11. 22.

Document-term matrix 를 행렬로 변환하고, 컬럼끼리 값을 합하여 출현빈도를 구할 수 있다.> freq length(freq)[1] 531위의 freq 를 정렬함으로써, 출현 빈도가 가장 높은 term과 가장 낮은 term을 구할 수 있다. > ord freq[head(ord)] // # Least frequent terms (sample @coordinator @delighted @she @two 10,000. 1 1 1 1 1 1 > freq[tail(ord)] // # most frequent termshave will you that and the 15 15 27 51 56 71 > freq[tail(ord,10)] // 갯수 지정도 가능 all but draft this have ..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

갈루아의 반서재

빈도

16. 워드 클라우드 Word Clouds - 옵션

13. 상관관계 그래프로 보여주기 Correlations Plots

12. 등장빈도 및 단어간 상관도에 의거한 term 조회 Identifying Frequent Items and Associations

09. term의 출현빈도에 대한 분포 구하기 Distribution of Term Frequencies

08. Exploring the Document Term Matrix

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역