프로그래밍 Programming

Data Preparation (17) - Prepare (Variables)

문장전달자 2014. 12. 6. 18:20
728x90


모델링에 사용할 변수를 확정할 준비가 끝났다.

앞서 이미 변수의 역할에 대해서는 정의가 끝났고, 이제 모델링하고자하는 것들만 고르면 된다.

투입될 변수부터 시작하는데, 인풋 변수를 문자(변수의 이름)나 정수(변수의 인덱스)의 벡터로 정의한다.


> inputc <- setdiff(vars,target)

> inputc

 [1] "min_temp"        "max_temp"        "rainfall"       

 [4] "evaporation"     "sunshine"        "wind_gust_dir"  

 [7] "wind_gust_speed" "wind_dir_9am"    "wind_dir_3pm"   

[10] "wind_speed_9am"  "wind_speed_3pm"  "humidity_9am"   

[13] "humidity_3pm"    "pressure_3pm"    "cloud_9am"      

[16] "cloud_3pm"       "rain_today"      "risk_mm"   


원 데이터세트의 변수의 이름으로부터 indicies 가 결정된다. 

간결성을 위해 USE.NAMES= 를 사용하지 않았다.     

> inputi <- sapply(inputc, function(x) which (x== names(ds)), USE.NAMES=FALSE) // USE.NAMES = TRUE 이고 x 가 character 라면, x 를 결과치에 대한 이름으로 쓴다

> inputi

 [1]  3  4  5  6  7  8  9 10 11 12 13 14 15 17 18 19 22 23


편의를 위해 관측값의 번호를 기록한다.

> nobs <- nrow(ds) 

> nobs

[1] 366


> dim(ds)

[1] 366  24

> dim(ds[vars])

[1] 366  19

> dim(ds[inputc])

[1] 366  18

> dim(ds[inputi])

[1] 366  18



728x90