'분류 전체보기' 카테고리의 글 목록 (36 Page)

분류 전체보기

갈루아의 반서재

[웹사이트 만들기] (3) 블로그 만들기 Building our Blog

2014. 12. 10.

디렉토리 및 프로젝트 생성[root@lms data]# mkdir project[root@lms data]# cd project[root@lms project]# django-admin.py startproject Jbin[root@lms project]# cd Jbin[root@lms Jbin]# ls -al▒հ▒ 24drwxr-xr-x 2 root root 4096 12▒▒ 10 17:58 .drwxr-xr-x 3 root root 4096 12▒▒ 10 17:58 ..-rw-r--r-- 1 root root 0 12▒▒ 10 17:58 __init__.py-rw-r--r-- 1 root root 503 12▒▒ 10 17:58 manage.py-rw-r--r-- 1 root root 5027 12▒..

[웹사이트 만들기] (2) Django 설치 Installing django

2014. 12. 10.

https://www.djangoproject.com [Complete Installation Guide]https://docs.djangoproject.com/en/1.7/topics/install/ Django 설치[root@jpalace root]# wget http://www.djangoproject.com/download/1.3.1/tarball/[root@jpalace root]# tar xzvf Django-1.3.1.tar.gz[root@jpalace root]# cd Django-1.3.1[root@jpalace root]# python setup.py install설치된 버전 확인[root@jpalace data]# pythonPython 2.7 (r27:82500, Dec 10 201..

[웹사이트 만들기] (1) 파이썬Python 설치(2.7 버전으로 업그레이드)

2014. 12. 10.

설치된 버전을 확인힌다.[root@jpalace root]# python[root@jpalace root]# Python 2.2.2 (#1, Feb 24 2003, 19:13:11) // 버전 2.2.2 가 설치되어 있다[GCC 3.2.2 20030222 (Red Hat Linux 3.2.2-4)] on linux2Type "help", "copyright", "credits" or "license" for more information.파이썬 2.7을 다운로드하여 설치한다[root@jpalace root]# wget http://python.org/ftp/python/2.7/Python-2.7.tgz[root@jpalace root]# tar xzf Python-2.7.tgz[root@jpalace r..

아파치apache 버전 확인 방법

2014. 12. 10.

설치된 아파치의 버전을 알고 싶으면 다음과 같이 한다. 설치된 경로가 다르므로 아래와 같이 아파치 실행 경로를 확인한 후 -v 옵션으로 버전 확인 [root@dbserver ~]# ps -ef | grep httpd // 실행되고 있는 아파치 확인apache 1735 4954 0 Dec07 ? 00:00:00 /usr/sbin/httpd // 아파치 경로 확인root 4954 1 0 Jun20 ? 00:00:01 /usr/sbin/httpd[root@dbserver ~]# /usr/sbin/httpd -vServer version: Apache/2.0.52Server built: Jan 30 2007 09:56:53[root@dbserver ~]#

Data Preparation (20) - Review (전체코드)

2014. 12. 9.

R version 3.1.2 (2014-10-31) -- "Pumpkin Helmet"Copyright (C) 2014 The R Foundation for Statistical ComputingPlatform: i386-w64-mingw32/i386 (32-bit) R is free software and comes with ABSOLUTELY NO WARRANTY.You are welcome to redistribute it under certain conditions.Type 'license()' or 'licence()' for distribution details. R is a collaborative project with many contributors.Type 'contributors()'..

Data Preparation (19) - Prepare (Save Dataset)

2014. 12. 9.

다음과 같이 이상 살펴봤던 데이터세트를 저장할 수 있다.> paste0("_", format(Sys.Date(), "%y%m%d")) // paste = concatenate 와 같이 문자열을 합쳐준다[1] "_141206"> dsdate paste0(dsname, dsdate, ".RData")[1] "weather_141206.RData"> dsrdata save(ds, dsname, dspath, dsdate, target, risk, id, ignore, vars, nobs, omit, inputi, inputc, numi, numc, cati, catc, file=dsrdata) 이후 해당 데이터세트를 로딩은 다음과 같이 한다.> (load(dsrdata))[1] "ds" "dsname" "ds..

Data Preparation (18) - Prepare (Numeric and Categoric Variables)

2014. 12. 6.

numeric, categoric 변수에 대한 확인도 필요하다. 여기서는 numeric, categoric 모두 이름과 인덱스를 통해 확인한다. 인덱스를 사용하는 것은 해당 데이터세트내에 변수를 항상 일정한 순서로 배열하며, 모든 변수가 존재한다고 가정해야함을 의미한다. > which(sapply(ds, is.numeric)) min_temp max_temp rainfall evaporation 3 4 5 6 sunshine wind_gust_speed wind_speed_9am wind_speed_3pm 7 9 12 13 humidity_9am humidity_3pm pressure_9am pressure_3pm 14 15 16 17 cloud_9am cloud_3pm temp_9am temp_3pm ..

Data Preparation (17) - Prepare (Variables)

2014. 12. 6.

모델링에 사용할 변수를 확정할 준비가 끝났다.앞서 이미 변수의 역할에 대해서는 정의가 끝났고, 이제 모델링하고자하는 것들만 고르면 된다.투입될 변수부터 시작하는데, 인풋 변수를 문자(변수의 이름)나 정수(변수의 인덱스)의 벡터로 정의한다. > inputc inputc [1] "min_temp" "max_temp" "rainfall" [4] "evaporation" "sunshine" "wind_gust_dir" [7] "wind_gust_speed" "wind_dir_9am" "wind_dir_3pm" [10] "wind_speed_9am" "wind_speed_3pm" "humidity_9am" [13] "humidity_3pm" "pressure_3pm" "cloud_9am" [16] "cloud_3..

Data Preparation (10) - Clean (Identify Correlated Variables)

2014. 12. 6.

> sapply(ds, is.numeric) date location min_temp max_temp rainfall FALSE FALSE TRUE TRUE TRUE evaporation sunshine wind_gust_dir wind_gust_speed wind_dir_9am TRUE TRUE FALSE TRUE FALSE wind_dir_3pm wind_speed_9am wind_speed_3pm humidity_9am humidity_3pm FALSE TRUE TRUE TRUE TRUE pressure_9am pressure_3pm cloud_9am cloud_3pm temp_9am TRUE TRUE TRUE TRUE TRUE temp_3pm rain_today risk_mm rain_tomorr..

Data Preparation (16) - Clean (Ensure Target is Categoric)

2014. 12. 6.

타겟의 카테고리 여부 확인하기 > target[1] "rain_tomorrow"> ds[[target]] [1] Yes Yes Yes Yes No No No No Yes No No No No No No No Yes No [19] No No No Yes No No No No No No No Yes Yes No Yes No No No [37] Yes No No No No No No No Yes Yes No No Yes Yes Yes Yes No Yes [55] No No Yes No No No No No No No No No No No No No No No [73] Yes No No No Yes No Yes Yes No No No No No No No No No No [91] Yes Yes No No Yes..

Data Preparation (15) - Clean (Normalise Factors)

2014. 12. 6.

일부 변수가 갖고 있는 각각의 레벨을 아래와 같이 normalise 해야한다. > sapply(ds[vars],is.factor) date location min_temp max_temp rainfall FALSE TRUE FALSE FALSE FALSE evaporation sunshine wind_gust_dir wind_gust_speed wind_dir_9am FALSE FALSE TRUE FALSE TRUE wind_dir_3pm wind_speed_9am wind_speed_3pm humidity_9am humidity_3pm TRUE FALSE FALSE FALSE FALSE pressure_9am pressure_3pm cloud_9am cloud_3pm temp_9am FALSE FALS..

Data Preparation (14) - Clean (Omitting Observations)

2014. 12. 6.

간단하게 결측값을 가진 관측값을 제거하기를 원할 수도 있다.여기서 na.omit()을 이용하여 생략하고자 하는 행을 확정하고, 리턴된 오브젝트의 na.action 속성에 생략할 행의 목록이 저장된다. 그런 다음 그러한 관측값들을 데이터세트에서 제거한다. 이번에도 역시 원복을 위해 카피본을 만들어놓고 작업한다. > ods omit dim(ds[vars])[1] 366 24> sum(is.na(ds[vars]))[1] 47 // 결측값 47개> attr(na.omit(ds[vars]),"na.action")// na.omit 는 NA 값을 전부 제거한 오브젝트를 반환한다// na.action 는 결측값이 어떻게 처리되었는지를 정의하는 함수 전달// attr(x, which) : x는 속성에 억세스해야하는 오..

Data Preparation (13) - Clean (Deal with Missing Values)

2014. 12. 6.

결측값에 대해 새로운 가치를 매기는(impute) 작업 > ods dim(ds[vars])## [1] 366 18> sum(is.na(ds[vars]))## [1] 47 // 결측값(missing value)가 47개> ds[vars] sum(is.na(ds[vars]))## [1] 0 // NA가 0이 되었음> dim(ds[vars])## [1] 366 18> ds

Data Preparation (12) - Clean (Remove Missing Target)

2014. 12. 5.

아래는 missing target 을 제거하는 작업이다. > target[1] "rain_tomorrow"> ds[target] rain_tomorrow1 Yes2 Yes3 Yes4 Yes5 No6 No7 No8 No9 Yes10 No11 No12 No> is.na(ds[target]) rain_tomorrow [1,] FALSE [2,] FALSE [3,] FALSE [4,] FALSE [5,] FALSE [6,] FALSE [7,] FALSE [8,] FALSE [9,] FALSE [10,] FALSE> sum(is.na(ds[target]))[1] 0 > ds sum(is.na(ds[target]))[1] 0> dim(ds) // 366 observations, 24 variables[1] 366 ..

Data Preparation (11) - Clean (Feature Selection)

2014. 12. 5.

FSelector (Romanski, 2013) 패키지는 주어진 데이터세트에서 속성을 선택할 수 있는 기능을 제공한다. 관련성이 없거나 불필요한 정보를 확정하고 제거하는 기능을 한다. > library(FSelector)> form cfs(form, ds[vars]) // cfs : algorithm finds attribute subset using correlation and entropy measures for continous and discrete data[1] "min_temp" "sunshine" "wind_gust_speed" "humidity_3pm" [5] "pressure_3pm" "cloud_3pm" > information.gain(form, ds[vars]) // informat..

Data Preparation (10) - Clean (Remove the Variables)

2014. 12. 5.

무시하기로 한 변수가 정해지면, 사용할 변수 목록에서 아래와 같이 해당 변수를 제거한다. > length(vars)[1] 24> vars length(vars)[1] 21>

lower.tri / upper.tri

2014. 12. 5.

lower.tri / upper.tri행렬의 lower triangle 와 upper triangle 를 TRUE 나 FALSE 로 채운다 lower.tri(x, diag = FALSE)upper.tri(x, diag = FALSE)[인수]1) x : 행렬2) diag : TRUE/FALSE [예제]> (m2 > lower.tri(m2) [,1] [,2] [,3] [,4] [,5][1,] FALSE FALSE FALSE FALSE FALSE[2,] TRUE FALSE FALSE FALSE FALSE[3,] TRUE TRUE FALSE FALSE FALSE[4,] TRUE TRUE TRUE FALSE FALSE> upper.tri(m2) [,1] [,2] [,3] [,4] [,5][1,] FALSE TRU..

Correlation : cor()

2014. 12. 5.

cor(x, y) : 상관관계 계산 cor(x, use=, method= ) [인수]1) x : 행렬 또는 데이터프레임2) use : 결측값(missing data)를 다루는 방법. (1) all.obs : 결측값이 없다고 가정하는 경우로, 결측값이 존재하면 에러를 발생시킨다. (2) complete.obs (listwise deletion) : 결측값을 사례별로 지우기. 결측값이 하나라도 있는 경우에 그 case 모두를 지운다. (3) pairwise.complete.obs (pairwise deletion) : 한쌍 목록 삭제.3) method : 상관관계의 유형 (pearson, spearman, kendall) (1) pearson : X 와 Y 가 완전히 동일하면 +1, 전혀 다르면 0, 반대방..

apply function (apply/lappy/sapply)

2014. 12. 2.

apply 함수는 plyr 패키지가 커버한다. 1. applyapply(array, margin, function) - 행렬의 행이나 열단위로 해당 함수를 적용하고자 할 때 사용함여기서 margin 값이 1이면 행을, 2는 열을 나타낸다. > matrix(seq(1,16), 4, 4) [,1] [,2] [,3] [,4][1,] 1 5 9 13[2,] 2 6 10 14[3,] 3 7 11 15[4,] 4 8 12 16> M apply(M, 1, min) // 각각의 행에서 최소값 리턴[1] 1 2 3 4> apply(M, 1, max) // 각각의 행에서 최대값 리턴[1] 13 14 15 16> apply(M, 2, max) // 각각의 열에서 최대값 리턴[1] 4 8 12 16 > array( seq(3..

Data Preparation (9) - Clean (Deal with Missing Values)

2014. 11. 29.

변수의 결측값(missing values)에 대해 randomForest()는 결측값을 다루도록 코딩이 되어있지 않은 반면에, rpart()는 특히 결측값을 다루는데 뛰어나다. randomForest (Breiman et al., 2012)의 na.roughfix()을 통해 결측값을 중앙값 등으로 돌리기도 한다. > ods dim(ds[vars])## [1] 366 18 > sum(is.na(ds[vars])) // is.na(x) # returns TRUE of x is missing## [1] 47 // 결측값이 47개 > ds[vars]

Data Preparation (8) - Clean (Ignore MultiLevel, Constants)

2014. 11. 29.

Too Many Levels레벨이 많은 변수는 레벨을 줄이거나 아니면 아예 해당 변수를 배제할 필요가 있다.> factors lvls (many 20)))## character(0)> ignore (constants ignore

Data Preparation (7) - Clean (Ignore IDs, Outputs, Missing)

2014. 11. 29.

이제 모델링에 부적절한 일부 변수를 무시하는 작업이다. IDs and Outputs앞에서도 언급했듯이 risk 변수는 아웃풋 변수이다. 이 변수는 모델링에서 할 역할이 없다.항상 조심해야 하는데 아웃풋 변수를 모델링에 인풋으로 넣는 점이다.입문자가 흔히 저지르기 쉬운 실수 중 하나다. > igonre ignore

Data Preparation (6) - Review (Variable Roles)

2014. 11. 29.

이제 데이터세트내의 각각의 변수의 역할에 대한 정의가 필요하다. 1) "date"는 변수로 부적합(차라리 계절이라면 낫겠다)2) "location"은 상수이므로 여기서 삭제3) "risk"는 타겟 변수에 관한 관찰의 중요도나 위험의 합을 나타냄으로 아웃풋 변수임 > (vars target risk id

요시다 슈이치, 「사요나라 사요나라」- 악인을 능가하는 수작!

2014. 11. 29.

",,, 그랬더니 같이 있던 남자가 학교 선생님인지, 스포츠 용품점 앞에서 초등학생 남자애들한테 둘러싸여 있어서 결국 말을 못 걸었대요." 거기까지 듣자, 와타나베는 왠지 모르게 핏기가 싹 가셨다. (p.160) 그 순간 나도 핏기가 싹 가셨다.... 표지에 이끌려 살 수 밖에 없었던 책. 반디 센트럴시티에는 없고 사당점에는 있었다. 일본 소설은 사당점이 더 (깨끗하게) 구비하고 있다고 생각된다. 처음 요시다 슈이치의 작품을 만난 것은 「사랑에 난폭」을 통해서였다. 잔잔하게 다다미 밑을 파내는 그녀의 이야기에 격하게 공감하고.... 이후 악인, 그리고 오늘은 사요나라~ 스포일러가 될 수도 있지만... 집단 강간을 당한 후 엉망진창이 되어버린 가나코의 삶. 필사적으로 감추고 싶었지만, 매번 들통나서 그녀는..

Data Preparation (5) - Review (Data Formats)

2014. 11. 28.

Data Formats데이터세트내의 일부 변수의 포맷을 바꿔야 할 경우도 있다. 먼저 각각의 변수의 데이터 타입부터 확인해야 한다. > sapply(ds,class)$date[1] "Date" $location[1] "factor" $min_temp[1] "numeric" $max_temp[1] "numeric" $rainfall[1] "numeric" $evaporation[1] "numeric"lubridate를 이용하여 date 변수의 포맷을 다른 것으로 바꿔보자.> library(lubridate)> head(ds$date)[1] "2007-11-01" "2007-11-02" "2007-11-03" "2007-11-04" "2007-11-05"[6] "2007-11-06"> ds$date as.P..

Data Preparation (4) - Review (Meta Data Cleansing)

2014. 11. 28.

Normalise Variable Names 모든 변수를 소문자로 놓고 진행하는 것이 유용한 경우도 있다. 하지만 R은 대소문자를 구별하는 프로그램이다. ncm_tax_PyBl 와 같이 서로 다른 대소문자가 섞여 있는 경우, 그리고 1,000개가 넘는 변수들의 표기를 일일이 기억할 수 없을 때 모든 변수 이름을 정돈할 필요성이 있다. 특히 대소문자를 구별하지 않는 데이터베이스에서 위와 같은 형태의 변수를 종종 발견할 수 있다. 이 경우 rattle 의 normVarNames() 을 이용하여 데이터세트의 변수들을 표준 형태로 변환시킬 수 있다. 아래 예제를 보자. > names(ds) [1] "Date" "Location" "MinTemp" "MaxTemp" [5] "Rainfall" "Evaporatio..

Data Preparation (3) - Review (Observations, Structure, Summary)

2014. 11. 28.

1. Observations 데이터 세트를 로딩하고 나서 해야할 일은 데이터 세트의 모양을 이해하는 것이다. head(), tail() 등을 이용해 데이터 세트를 확인해볼 수 있다.> head(ds)Source: local data frame [6 x 24] Date Location MinTemp MaxTemp Rainfall Evaporation Sunshine WindGustDir1 2007-11-01 Canberra 8.0 24.3 0.0 3.4 6.3 NW2 2007-11-02 Canberra 14.0 26.9 3.6 4.4 9.7 ENE3 2007-11-03 Canberra 13.7 23.4 3.6 5.8 3.3 NW4 2007-11-04 Canberra 13.3 15.5 39.8 7.2 9.1..

Data Preparation (2) - Table Data Frame (tbl_df)

2014. 11. 28.

테이블 데이터 프레임의 유용성 Convenience of Table Data Frame tbl_df()를 이용하여 데이터 프레임에 복수의 여분 클래스를 만드는 방법이 있다. tbl_df()를 사용하는 주된 장점은 프린팅때문이다. tbl 오브젝트는 스큰린에 맞춰 일부의 행과 열만 프린트해줌으로써 대용량의 데이터를 다룰 때 유용하다. > class(ds)[1] "data.frame"> library(dplyr) // tbl_df 를 사용하려면 dplyr 을 실행해야 한다. > ds class(ds)[1] "tbl_df" "tbl" "data.frame" // tbl 오브젝트 생성프린팅해보자.> dsSource: local data frame [366 x 24] Date Location MinTemp MaxT..

Data Preparation (1) - Load (Dataset, Generic Variables)

2014. 11. 28.

이번 게시물부터는 R을 이용하여 모델을 만들기 위해 데이터를 다듬는 과정에 대해 이야기 해보려고 합니다. 데이터세트를 R로 띄우고, 데이터를 관찰하고 변환하는 것에 대해 다룬 후, 예측 모델을 만드는 과정에 대해 다뤄봅니다.이 과정에는 아래의 패키지가 필요합니다. > install.packages("rattle")> library(rattle) # The weather dataset and normVarNames(). > install.packages("randomForest")> library(randomForest) # Impute missing values using na.roughfix(). > install.packages("tidyr")> library(tidyr) # Tidy the data..

AICPA 인터내셔널 테스팅 - 일본내 시험자격 및 응시비용에 대해서

2014. 11. 28.

인터내셔널 테스팅이 확대되어가고 있는 상황입니다. 일본, 브라질, 바레인, 쿠웨이트, 레바논, 아랍에미레이트 등 이제 세계 각지에서도 AICPA 시험을 치를 수가 있습니다.이 중 국내에서 가장 가까운 일본에서의 AICPA 시험 응시에 대해서 궁금해하시는 분이 많은데요, 오늘은 여기에 대해서 알아보겠습니다. 1. 일본내 응시가 가능한 경우1) 일본 국적 소지자2) 일본 영주권 소지자3) 일본내 장기체류 중인 외국인 (외국인등록번호 소지자) 등 2. 일본내 시험장소 1) 도쿄 2) 요코하마3) 오사카 3. 비용 (2013년 10월 기준)수험료는 Application Fee(응시수수료) 와 Exam Fee(개별과목수험료) 로 구성됩니다. Application Fee 는 주마다 상이하고, Exam Fee 는 전..

갈루아의 반서재

티스토리툴바