갈루아의 반서재

728x90

변수의 결측값(missing values)에 대해 randomForest()는 결측값을 다루도록 코딩이 되어있지 않은 반면에, rpart()는 특히 결측값을 다루는데 뛰어나다. randomForest (Breiman et al., 2012)의 na.roughfix()을 통해 결측값을 중앙값 등으로 돌리기도 한다.




> ods <- ds

> dim(ds[vars])

## [1] 366 18


> sum(is.na(ds[vars])) // is.na(x) # returns TRUE of x is missing

## [1] 47 // 결측값이 47개


> ds[vars] <- na.roughfix(ds[vars])

sum(is.na(ds[vars]))

## [1] 0 // na.roughfix(ds[vars])로 처리한 후 결측값은 0개


dim(ds[vars])

## [1] 366 18


ds <- ods



728x90