모델링에 사용할 변수를 확정할 준비가 끝났다.
앞서 이미 변수의 역할에 대해서는 정의가 끝났고, 이제 모델링하고자하는 것들만 고르면 된다.
투입될 변수부터 시작하는데, 인풋 변수를 문자(변수의 이름)나 정수(변수의 인덱스)의 벡터로 정의한다.
> inputc <- setdiff(vars,target)
> inputc
[1] "min_temp" "max_temp" "rainfall"
[4] "evaporation" "sunshine" "wind_gust_dir"
[7] "wind_gust_speed" "wind_dir_9am" "wind_dir_3pm"
[10] "wind_speed_9am" "wind_speed_3pm" "humidity_9am"
[13] "humidity_3pm" "pressure_3pm" "cloud_9am"
[16] "cloud_3pm" "rain_today" "risk_mm"
원 데이터세트의 변수의 이름으로부터 indicies 가 결정된다.
간결성을 위해 USE.NAMES= 를 사용하지 않았다.
> inputi <- sapply(inputc, function(x) which (x== names(ds)), USE.NAMES=FALSE) // USE.NAMES = TRUE 이고 x 가 character 라면, x 를 결과치에 대한 이름으로 쓴다
> inputi
[1] 3 4 5 6 7 8 9 10 11 12 13 14 15 17 18 19 22 23
편의를 위해 관측값의 번호를 기록한다.
> nobs <- nrow(ds)
> nobs
[1] 366
> dim(ds)
[1] 366 24
> dim(ds[vars])
[1] 366 19
> dim(ds[inputc])
[1] 366 18
> dim(ds[inputi])
[1] 366 18
'프로그래밍 Programming' 카테고리의 다른 글
Data Preparation (19) - Prepare (Save Dataset) (0) | 2014.12.09 |
---|---|
Data Preparation (18) - Prepare (Numeric and Categoric Variables) (0) | 2014.12.06 |
Data Preparation (10) - Clean (Identify Correlated Variables) (0) | 2014.12.06 |
Data Preparation (16) - Clean (Ensure Target is Categoric) (0) | 2014.12.06 |
Data Preparation (15) - Clean (Normalise Factors) (0) | 2014.12.06 |