갈루아의 반서재


모델링에 사용할 변수를 확정할 준비가 끝났다.

앞서 이미 변수의 역할에 대해서는 정의가 끝났고, 이제 모델링하고자하는 것들만 고르면 된다.

투입될 변수부터 시작하는데, 인풋 변수를 문자(변수의 이름)나 정수(변수의 인덱스)의 벡터로 정의한다.


> inputc <- setdiff(vars,target)

> inputc

 [1] "min_temp"        "max_temp"        "rainfall"       

 [4] "evaporation"     "sunshine"        "wind_gust_dir"  

 [7] "wind_gust_speed" "wind_dir_9am"    "wind_dir_3pm"   

[10] "wind_speed_9am"  "wind_speed_3pm"  "humidity_9am"   

[13] "humidity_3pm"    "pressure_3pm"    "cloud_9am"      

[16] "cloud_3pm"       "rain_today"      "risk_mm"   


원 데이터세트의 변수의 이름으로부터 indicies 가 결정된다. 

간결성을 위해 USE.NAMES= 를 사용하지 않았다.     

> inputi <- sapply(inputc, function(x) which (x== names(ds)), USE.NAMES=FALSE) // USE.NAMES = TRUE 이고 x 가 character 라면, x 를 결과치에 대한 이름으로 쓴다

> inputi

 [1]  3  4  5  6  7  8  9 10 11 12 13 14 15 17 18 19 22 23


편의를 위해 관측값의 번호를 기록한다.

> nobs <- nrow(ds) 

> nobs

[1] 366


> dim(ds)

[1] 366  24

> dim(ds[vars])

[1] 366  19

> dim(ds[inputc])

[1] 366  18

> dim(ds[inputi])

[1] 366  18