Data Preparation (17) - Prepare (Variables)

728x90

모델링에 사용할 변수를 확정할 준비가 끝났다.
앞서 이미 변수의 역할에 대해서는 정의가 끝났고, 이제 모델링하고자하는 것들만 고르면 된다.
투입될 변수부터 시작하는데, 인풋 변수를 문자(변수의 이름)나 정수(변수의 인덱스)의 벡터로 정의한다.

> inputc <- setdiff(vars,target)
> inputc
[1] "min_temp" "max_temp" "rainfall"
[4] "evaporation" "sunshine" "wind_gust_dir"
[7] "wind_gust_speed" "wind_dir_9am" "wind_dir_3pm"
[10] "wind_speed_9am" "wind_speed_3pm" "humidity_9am"
[13] "humidity_3pm" "pressure_3pm" "cloud_9am"
[16] "cloud_3pm" "rain_today" "risk_mm"

원 데이터세트의 변수의 이름으로부터 indicies 가 결정된다.
간결성을 위해 USE.NAMES= 를 사용하지 않았다.
> inputi <- sapply(inputc, function(x) which (x== names(ds)), USE.NAMES=FALSE) // USE.NAMES = TRUE 이고 x 가 character 라면, x 를 결과치에 대한 이름으로 쓴다
> inputi
[1] 3 4 5 6 7 8 9 10 11 12 13 14 15 17 18 19 22 23

편의를 위해 관측값의 번호를 기록한다.
> nobs <- nrow(ds)
> nobs
[1] 366

> dim(ds)
[1] 366 24
> dim(ds[vars])
[1] 366 19
> dim(ds[inputc])
[1] 366 18
> dim(ds[inputi])
[1] 366 18

728x90

저작자표시 비영리 변경금지 (새창열림)

'Season 1 아카이브 > 프로그래밍' 카테고리의 다른 글

Data Preparation (19) - Prepare (Save Dataset) (0)	2014.12.09
Data Preparation (18) - Prepare (Numeric and Categoric Variables) (0)	2014.12.06
Data Preparation (10) - Clean (Identify Correlated Variables) (0)	2014.12.06
Data Preparation (16) - Clean (Ensure Target is Categoric) (0)	2014.12.06
Data Preparation (15) - Clean (Normalise Factors) (0)	2014.12.06

갈루아의 반서재

Data Preparation (17) - Prepare (Variables)

'Season 1 아카이브 > 프로그래밍' 카테고리의 다른 글

티스토리툴바