프로그래밍 Programming
Data Preparation (9) - Clean (Deal with Missing Values)
문장전달자
2014. 11. 29. 17:41
728x90
변수의 결측값(missing values)에 대해 randomForest()는 결측값을 다루도록 코딩이 되어있지 않은 반면에, rpart()는 특히 결측값을 다루는데 뛰어나다. randomForest (Breiman et al., 2012)의 na.roughfix()을 통해 결측값을 중앙값 등으로 돌리기도 한다.
> ods <- ds
> dim(ds[vars])
## [1] 366 18
> sum(is.na(ds[vars])) // is.na(x) # returns TRUE of x is missing
## [1] 47 // 결측값이 47개
> ds[vars] <- na.roughfix(ds[vars])
sum(is.na(ds[vars]))
## [1] 0 // na.roughfix(ds[vars])로 처리한 후 결측값은 0개
dim(ds[vars])
## [1] 366 18
ds <- ods
728x90