이제 데이터세트내의 각각의 변수의 역할에 대한 정의가 필요하다.
1) "date"는 변수로 부적합(차라리 계절이라면 낫겠다)
2) "location"은 상수이므로 여기서 삭제
3) "risk"는 타겟 변수에 관한 관찰의 중요도나 위험의 합을 나타냄으로 아웃풋 변수임
> (vars <- names(ds))
[1] "date" "location" "min_temp" "max_temp"
[5] "rainfall" "evaporation" "sunshine" "wind_gust_dir"
[9] "wind_gust_speed" "wind_dir_9am" "wind_dir_3pm" "wind_speed_9am"
[13] "wind_speed_3pm" "humidity_9am" "humidity_3pm" "pressure_9am"
[17] "pressure_3pm" "cloud_9am" "cloud_3pm" "temp_9am"
[21] "temp_3pm" "rain_today" "risk_mm" "rain_tomorrow"
> target <- "rain_tomorrow"
> risk <- "risk_mm"
> id <- c("date", "location")
'프로그래밍 Programming' 카테고리의 다른 글
Data Preparation (8) - Clean (Ignore MultiLevel, Constants) (0) | 2014.11.29 |
---|---|
Data Preparation (7) - Clean (Ignore IDs, Outputs, Missing) (0) | 2014.11.29 |
Data Preparation (5) - Review (Data Formats) (0) | 2014.11.28 |
Data Preparation (4) - Review (Meta Data Cleansing) (0) | 2014.11.28 |
Data Preparation (3) - Review (Observations, Structure, Summary) (0) | 2014.11.28 |