missing values
Data Preparation (9) - Clean (Deal with Missing Values)
Data Preparation (9) - Clean (Deal with Missing Values)
2014. 11. 29.변수의 결측값(missing values)에 대해 randomForest()는 결측값을 다루도록 코딩이 되어있지 않은 반면에, rpart()는 특히 결측값을 다루는데 뛰어나다. randomForest (Breiman et al., 2012)의 na.roughfix()을 통해 결측값을 중앙값 등으로 돌리기도 한다. > ods dim(ds[vars])## [1] 366 18 > sum(is.na(ds[vars])) // is.na(x) # returns TRUE of x is missing## [1] 47 // 결측값이 47개 > ds[vars]
Data Preparation (7) - Clean (Ignore IDs, Outputs, Missing)
Data Preparation (7) - Clean (Ignore IDs, Outputs, Missing)
2014. 11. 29.이제 모델링에 부적절한 일부 변수를 무시하는 작업이다. IDs and Outputs앞에서도 언급했듯이 risk 변수는 아웃풋 변수이다. 이 변수는 모델링에서 할 역할이 없다.항상 조심해야 하는데 아웃풋 변수를 모델링에 인풋으로 넣는 점이다.입문자가 흔히 저지르기 쉬운 실수 중 하나다. > igonre ignore