갈루아의 반서재

728x90

그럼 예제 파일을 가지고 시작해보자.

R 프로그램의 working directory 는 다음의 명령어로 확인가능하다.

 

> getwd()

[1] "C:/Users/fukaeri/Documents"

 

작업 디렉토리 변경은 다음과 같이 한다. setwd() 명령어로는 새폴더를 생성할 수는 없다. 그러므로 해당 폴더가 없는 경우라면 먼저 폴더를 생성한 후 작업 디렉토리로 지정해야 한다.

> setwd(C:/Users/myusername/Documents/My Other R Stuff)

 

본 예제에 필요한 파일을 아래 링크에서 다운로드한 후 다음과 같이 입력한다.

http://sites.google.com/site/undergraduateguidetor/manual-files

 

> proteinconc = read.csv("proteinconc.csv", header=TRUE)

 

> class(proteinconc)

[1] "data.frame"

 

 

 

 

 

read.csv() : 데이터를 R 로 가져오기 위한 함수(R은 새로운 data frame 을 만들어서 해당 데이터를 가지고 있는다)

 

read.csv("가져올 파일 이름", header=TRUE)

header=TRUE 는 해당 데이터의 첫번째 열이 헤더임을 의미한다.

 

데이터 프레임 출력

 

> proteinconc
           X   Nucleus Nuclear.Membrane Cell.Membrane  Cytoplasm
1  Protein A 0.8130102       0.57037020    0.83259180 0.65253323
2  Protein B 0.6721608       0.11733711    0.36397878 0.29172480
3  Protein C 0.9999900       0.20000000    0.10000000 0.10000000
4  Protein D 0.1362260       0.62458998    0.47661581 0.20027876
5  Protein E 0.1926978       0.57585916    0.93488815 0.78293320

 

 

위와 같아서는 끝부분의 Endoplasmic.Retriculum 의 경우 어떤 단백질에 대한 내용인지 알아보기 어렵다.

그래서 첫번째 열을 행이름으로 리셋하기 위해 다음과 같이 한다.

 

> row.names(proteinconc) = proteinconc[,1]

> proteinconc

 

 

이제 행의 이름이 숫자에서 단백질 이름으로 변경된 것을 볼 수 있다.

하지만 상단 데이터의 경우 단백질 이름이 중복해서 나온다.

아래 명령어로 데이터 프레임에서 첫번째 행을 제거한다.

 

> proteinconc = proteinconc[,-1]

> proteinconc

 

 

 

 

rdata 타입의 파일을 로딩할 때는 다음의 명령어를 입력한다.

> load("proteinconc.rdata")

728x90