R 프로그래밍
06. Stemming 어간추출
2014. 11. 22.Stemming 어간추출 예를 들면, "es", "ed", "s" 와 같은 common word endings english 을 제거하는 알고리즘을 이용한다. SnowballC 패키지의 wordStem() 의 기능을 이용한다(Bouchet-Valat, 2014) 많은 경우에 데이터 분석을 위해 어간을 추출할 필요가 있다. 예를 들어, "example" 과 "examples" 은 동일한 "exampl" 에서 비롯되었다고 할 수 있기 때문이다. 아래 결과를 통해 추출전과 추출후를 비교해보자. > doc[[3]]STRICKLAND: All right. So it will be prior to August 14th or whatever date it is.> doc[[6]]STRICKLAND: Way prior..
05. Preparing the Corpus - 특정 변환
2014. 11. 22.Specific Transformations 의 예 > toString inspect(doc[6]) [[1]]clewell yes im coordinator reading language arts montgomery county public schools suburban district surrounding washington schools elementary schools > doc inspect(doc[6]) [[1]]clewell yes im coordinator reading language arts montgomery county public schools suburban district surrounding WA schools elementary schools
Information Visualization (8) - R 그래픽 기초 (점 추가하기 Adding Points To A Plot)
2014. 10. 18.형식은 다음과 같음points(x, y, pch=int, col=str) pch점의 모양 결정하는 것으로, 1~25 사이의 값은 그래픽 심볼, 33~126 사이의 값은 아스키코드(ASCII code)에서 가져옴특히 21~25 사이의 값에는 경계선의 색(col=)과 배경색(bg=) 옵션 있음 이미지출처 http://www.statmethods.net/advgraphs/parameters.html 아스키코드 이미지출처 http://www.asciichars.com/ col "red", "lightblue" 등과 같이 경계선 색상 설정
Information Visualization (3) - R 그래픽 기초 (원 그리기)
2014. 9. 12.1. 원 그리기 원을 그리는 간단한 R 함수는 없다. 아래는 다각형을 가지고 대략적으로 원을 그리는 방법이다. > plot.new() > plot.window(xlim=c(-1.1,1.1), ylim=c(-1.1,1.1), asp=1) > theta=seq(0,2*pi, length=72) // 180° = π, 2π 즉, 360° 를 72 로 나눈 것이므로 Change of angle = 5° > x=cos(theta) > y=sin(theta) > lines(x,y) > 위의 그림에서 c = 1 이라고 하면, 좌표 X = (a,b) = (a/1, b/1) = (cosA, sinA) 가 된다. theta = seq(0,2*pi, length=72) 의 간격대로 해당 값들을 구해보면 아래와 같다. 아래와..
Information Visualization (2) - R 그래픽 기초 (사각형 그리기 예제, 대각선 가진 사각형, 중첩된 사각형)
2014. 9. 6.사각형 그리기 몇 가지 예제 1. 대각선을 가로지르는 선을 가진 사각형 그리기 > plot.new() ## 새 도면 열기> plot.window(xlim = c(0, 1), ylim = c(0, 1), asp = 1)> rect(xleft = .1, ybottom = .1, xright = .9, ytop = .9) ## rect(xleft, ybottom, xright, ytop) 각 포지션의 벡터값 가진 사각형 그리기> segments(0, 0, 1, 1) ## segments(x0, y0, x1, y1) : 출발점(x0, y0)에서 도착점(x1, y1)으로 선긋기> segments(0, 1, 1, 0) 2. 중첩된 사각형 그리기 > plot.new()> plot.window(xlim=c(0,1..
Information Visualization (1) - R 그래픽 기초 (여백조정, 기본함수목록)
2014. 9. 6.1. 새 도면 준비 그래프를 그릴 새로운 도면을 준비한다.> plot.new() 2. 여백(margin) 조정하기 1) par() 함수는 현재 그래픽 장치의 그래픽 파라메터의 리스트를 수정하는데 쓰인다. 2) 마진을 설정하는 함수의 형식은 다음과 같다. par(mar=c(bottom margin, left, top, right))par(mai=c(bottom margin, left, top, right)) 여기서 par("mar") 은 텍스트의 라인수, par("mai") 는 인치를 나타낸다.그리고 순서는 bottom - left - top - right 이다. 라인수로 마진 크기 조정par(mar = c(5.1, 4.1, 4.1, 2.1))인치단위로 마진 크기 조정 par(mai = c(1.02,..
R 프로그래밍 - 참고자료 Further Resources
2014. 9. 6.CRAN Home Pagehttp://cran.r-project.org/R 업데이트, 패키지 정보 수록, 최근 R 이벤트 알림R Journalhttp://journal.r-project.org/R 과 새로운 R 패키지에 대한 저널R Manualshttp://cran.r-project.org/ > Documentation > Manuals관련 매뉴얼 리스팅, An Introduction to R 부터 볼 것. 전체를 다 볼 필요는 없고 관련있는 섹션 위주로 보면 됨R Forumhttp://www.nabble.com/R-f13819.htmlR 포럼
R 프로그래밍 - Functions (Custom)
2014. 8. 30.이번에는 R 에 내장된 함수가 아닌 사용자가 사용을 위해 만든 커스토마이징된 함수를 활용하는 방법에 대한 것이다. 커스토마이징된 함수를 이용하기 위해서는 콘솔과 스크립트창을 모두 사용할 수 있지만, 스크립트창을 이용하는게 좀 더 편리하다. 스크립트창은 File > New script 를 이용해서 띄운다. 아래의 예제를 해당 창에 넣어보자. doubledip doubledip(5,-2) [1] 1.778279 > 주의해야할 점은 plot() 이나 c() 처럼 내장된 함수의 이름으로 저장해서는 안된다는 것이다. 내장된 함수의 이름과 동일한지를 확인하기 위해서는 간단히 콘솔창에서 이름을 쳐보면 된다. 또 하나 주의해야할 점은 커스톰 함수를 사용한 후 워크스페이스를 저장하지 않는다면 해당 함수를 사용하기 위해 ..
R 프로그래밍 - Plotting Data (좌표로 나타내기) : Dot plot(점도표)
2014. 8. 9.Dot plot(점도표)은 plot() 함수를 통해서 호출되는데, 같은 길이의 두 개의 벡터를 처리하고 좌표로 나타낸다. 첫 번째 벡터는 x축에, 두 번재 벡터는 y축에 대응된다. > plotvector1 = 1:9 > plot(plotvector1, plotvector1) 위의 명령을 실행하면 새로운 창이 뜨면서 도표가 표시되는데 이 창은 plotting window 이고 좌표가 표시되는 창이다. 만약 아래와 같이 새로운 명령을 실행하면 이전의 도표는 없어지고 새로운 도표로 대체된다. > plotvector2 = 9:1 > plot(plotvector1,plotvector2) 새로운 도표창을 여는 명령어는 다음과 같다. 아래 명령어를 실행하면 기존 창 옆에 R Graphics: Device 3 (ACT..
R 프로그래밍 - Data Types (logical, vector, matrix, array, data.frame, list)
2014. 8. 2.1. logical True/False 값(Boolean values)을 포함하는 logical 클래스에 대해 알아보자. > logical1 = c(T,F,F)> logical1[1] TRUE FALSE FALSE> class(logical1)[1] "logical" 2. vector 데이터 타입으로서의 vector 는 수학의 벡터와는 다르게 정의된다. vector 타입은 일견 기존의 numeric, character, logical 과 중복된 것처럼 보일 수 있지만, vector 타입의 장점은 numeric, character, logical 모두를 포함할 수 있다는 것이다. > vector1 = vector(mode="logical",3)> vector1[1] FALSE FALSE FALSE 특정..
R 프로그래밍 - Manipulation
2014. 7. 16.1. 콤마의 의미 > matrix1 [,1] [,2] [,3] [1,] 1 4 7 [2,] 2 5 8 [3,] 3 6 9 > 1) [] 속 콤마의 의미 [1,] 숫자 뒤에 오는 콤마는 행 전체를 의미함 [,1] 숫자 앞에 오는 콤마는 열 전체를 의미함 이는 행렬의 요소를 정의할 때 행 넘버를 적고 열 넘버를 적는다는 일반적인 관습에 근거한다. > matrix1[1, 3] [1] 7 > matrix1[ 2, ] [1] 2 5 8 그리고 그 결과는 벡터의 형식으로 나타나게 됨 2) 열을 변경하는 명령어(제거되는 것은 아님) 두 번째 열을 변경하기 위해서는 다음의 명령어를 사용하면 된다. > matrix1[,-2] [ ,1 ] [ ,2 ] [ 1, ] 1 7 [ 2, ] 2 8 [ 3, ] 3 9 2. 데이터..