갈루아의 반서재

변수의 결측값(missing values)에 대해 randomForest()는 결측값을 다루도록 코딩이 되어있지 않은 반면에, rpart()는 특히 결측값을 다루는데 뛰어나다. randomForest (Breiman et al., 2012)의 na.roughfix()을 통해 결측값을 중앙값 등으로 돌리기도 한다.




> ods <- ds

> dim(ds[vars])

## [1] 366 18


> sum(is.na(ds[vars])) // is.na(x) # returns TRUE of x is missing

## [1] 47 // 결측값이 47개


> ds[vars] <- na.roughfix(ds[vars])

sum(is.na(ds[vars]))

## [1] 0 // na.roughfix(ds[vars])로 처리한 후 결측값은 0개


dim(ds[vars])

## [1] 366 18


ds <- ods