Data Preparation
Data Preparation (16) - Clean (Ensure Target is Categoric)
2014. 12. 6.타겟의 카테고리 여부 확인하기 > target[1] "rain_tomorrow"> ds[[target]] [1] Yes Yes Yes Yes No No No No Yes No No No No No No No Yes No [19] No No No Yes No No No No No No No Yes Yes No Yes No No No [37] Yes No No No No No No No Yes Yes No No Yes Yes Yes Yes No Yes [55] No No Yes No No No No No No No No No No No No No No No [73] Yes No No No Yes No Yes Yes No No No No No No No No No No [91] Yes Yes No No Yes..
Data Preparation (14) - Clean (Omitting Observations)
2014. 12. 6.간단하게 결측값을 가진 관측값을 제거하기를 원할 수도 있다.여기서 na.omit()을 이용하여 생략하고자 하는 행을 확정하고, 리턴된 오브젝트의 na.action 속성에 생략할 행의 목록이 저장된다. 그런 다음 그러한 관측값들을 데이터세트에서 제거한다. 이번에도 역시 원복을 위해 카피본을 만들어놓고 작업한다. > ods omit dim(ds[vars])[1] 366 24> sum(is.na(ds[vars]))[1] 47 // 결측값 47개> attr(na.omit(ds[vars]),"na.action")// na.omit 는 NA 값을 전부 제거한 오브젝트를 반환한다// na.action 는 결측값이 어떻게 처리되었는지를 정의하는 함수 전달// attr(x, which) : x는 속성에 억세스해야하는 오..
Data Preparation (13) - Clean (Deal with Missing Values)
2014. 12. 6.결측값에 대해 새로운 가치를 매기는(impute) 작업 > ods dim(ds[vars])## [1] 366 18> sum(is.na(ds[vars]))## [1] 47 // 결측값(missing value)가 47개> ds[vars] sum(is.na(ds[vars]))## [1] 0 // NA가 0이 되었음> dim(ds[vars])## [1] 366 18> ds
Data Preparation (9) - Clean (Deal with Missing Values)
2014. 11. 29.변수의 결측값(missing values)에 대해 randomForest()는 결측값을 다루도록 코딩이 되어있지 않은 반면에, rpart()는 특히 결측값을 다루는데 뛰어나다. randomForest (Breiman et al., 2012)의 na.roughfix()을 통해 결측값을 중앙값 등으로 돌리기도 한다. > ods dim(ds[vars])## [1] 366 18 > sum(is.na(ds[vars])) // is.na(x) # returns TRUE of x is missing## [1] 47 // 결측값이 47개 > ds[vars]
Data Preparation (8) - Clean (Ignore MultiLevel, Constants)
2014. 11. 29.Too Many Levels레벨이 많은 변수는 레벨을 줄이거나 아니면 아예 해당 변수를 배제할 필요가 있다.> factors lvls (many 20)))## character(0)> ignore (constants ignore
Data Preparation (6) - Review (Variable Roles)
2014. 11. 29.이제 데이터세트내의 각각의 변수의 역할에 대한 정의가 필요하다. 1) "date"는 변수로 부적합(차라리 계절이라면 낫겠다)2) "location"은 상수이므로 여기서 삭제3) "risk"는 타겟 변수에 관한 관찰의 중요도나 위험의 합을 나타냄으로 아웃풋 변수임 > (vars target risk id
Data Preparation (5) - Review (Data Formats)
2014. 11. 28.Data Formats데이터세트내의 일부 변수의 포맷을 바꿔야 할 경우도 있다. 먼저 각각의 변수의 데이터 타입부터 확인해야 한다. > sapply(ds,class)$date[1] "Date" $location[1] "factor" $min_temp[1] "numeric" $max_temp[1] "numeric" $rainfall[1] "numeric" $evaporation[1] "numeric"lubridate를 이용하여 date 변수의 포맷을 다른 것으로 바꿔보자.> library(lubridate)> head(ds$date)[1] "2007-11-01" "2007-11-02" "2007-11-03" "2007-11-04" "2007-11-05"[6] "2007-11-06"> ds$date as.P..
Data Preparation (3) - Review (Observations, Structure, Summary)
2014. 11. 28.1. Observations 데이터 세트를 로딩하고 나서 해야할 일은 데이터 세트의 모양을 이해하는 것이다. head(), tail() 등을 이용해 데이터 세트를 확인해볼 수 있다.> head(ds)Source: local data frame [6 x 24] Date Location MinTemp MaxTemp Rainfall Evaporation Sunshine WindGustDir1 2007-11-01 Canberra 8.0 24.3 0.0 3.4 6.3 NW2 2007-11-02 Canberra 14.0 26.9 3.6 4.4 9.7 ENE3 2007-11-03 Canberra 13.7 23.4 3.6 5.8 3.3 NW4 2007-11-04 Canberra 13.3 15.5 39.8 7.2 9.1..
Data Preparation (2) - Table Data Frame (tbl_df)
2014. 11. 28.테이블 데이터 프레임의 유용성 Convenience of Table Data Frame tbl_df()를 이용하여 데이터 프레임에 복수의 여분 클래스를 만드는 방법이 있다. tbl_df()를 사용하는 주된 장점은 프린팅때문이다. tbl 오브젝트는 스큰린에 맞춰 일부의 행과 열만 프린트해줌으로써 대용량의 데이터를 다룰 때 유용하다. > class(ds)[1] "data.frame"> library(dplyr) // tbl_df 를 사용하려면 dplyr 을 실행해야 한다. > ds class(ds)[1] "tbl_df" "tbl" "data.frame" // tbl 오브젝트 생성프린팅해보자.> dsSource: local data frame [366 x 24] Date Location MinTemp MaxT..
Data Preparation (1) - Load (Dataset, Generic Variables)
2014. 11. 28.이번 게시물부터는 R을 이용하여 모델을 만들기 위해 데이터를 다듬는 과정에 대해 이야기 해보려고 합니다. 데이터세트를 R로 띄우고, 데이터를 관찰하고 변환하는 것에 대해 다룬 후, 예측 모델을 만드는 과정에 대해 다뤄봅니다.이 과정에는 아래의 패키지가 필요합니다. > install.packages("rattle")> library(rattle) # The weather dataset and normVarNames(). > install.packages("randomForest")> library(randomForest) # Impute missing values using na.roughfix(). > install.packages("tidyr")> library(tidyr) # Tidy the data..