728x90
변수의 결측값(missing values)에 대해 randomForest()는 결측값을 다루도록 코딩이 되어있지 않은 반면에, rpart()는 특히 결측값을 다루는데 뛰어나다. randomForest (Breiman et al., 2012)의 na.roughfix()을 통해 결측값을 중앙값 등으로 돌리기도 한다.
> ods <- ds
> dim(ds[vars])
## [1] 366 18
> sum(is.na(ds[vars])) // is.na(x) # returns TRUE of x is missing
## [1] 47 // 결측값이 47개
> ds[vars] <- na.roughfix(ds[vars])
sum(is.na(ds[vars]))
## [1] 0 // na.roughfix(ds[vars])로 처리한 후 결측값은 0개
dim(ds[vars])
## [1] 366 18
ds <- ods
728x90
'프로그래밍 Programming' 카테고리의 다른 글
Correlation : cor() (0) | 2014.12.05 |
---|---|
apply function (apply/lappy/sapply) (0) | 2014.12.02 |
Data Preparation (8) - Clean (Ignore MultiLevel, Constants) (0) | 2014.11.29 |
Data Preparation (7) - Clean (Ignore IDs, Outputs, Missing) (0) | 2014.11.29 |
Data Preparation (6) - Review (Variable Roles) (0) | 2014.11.29 |