그럼 예제 파일을 가지고 시작해보자.
R 프로그램의 working directory 는 다음의 명령어로 확인가능하다.
> getwd()
[1] "C:/Users/fukaeri/Documents"
작업 디렉토리 변경은 다음과 같이 한다. setwd() 명령어로는 새폴더를 생성할 수는 없다. 그러므로 해당 폴더가 없는 경우라면 먼저 폴더를 생성한 후 작업 디렉토리로 지정해야 한다.
> setwd(C:/Users/myusername/Documents/My Other R Stuff)
본 예제에 필요한 파일을 아래 링크에서 다운로드한 후 다음과 같이 입력한다.
http://sites.google.com/site/undergraduateguidetor/manual-files
> proteinconc = read.csv("proteinconc.csv", header=TRUE)
> class(proteinconc)
[1] "data.frame"
>
read.csv() : 데이터를 R 로 가져오기 위한 함수(R은 새로운 data frame 을 만들어서 해당 데이터를 가지고 있는다)
read.csv("가져올 파일 이름", header=TRUE)
header=TRUE 는 해당 데이터의 첫번째 열이 헤더임을 의미한다.
데이터 프레임 출력
> proteinconc
X Nucleus Nuclear.Membrane Cell.Membrane Cytoplasm
1 Protein A 0.8130102 0.57037020 0.83259180 0.65253323
2 Protein B 0.6721608 0.11733711 0.36397878 0.29172480
3 Protein C 0.9999900 0.20000000 0.10000000 0.10000000
4 Protein D 0.1362260 0.62458998 0.47661581 0.20027876
5 Protein E 0.1926978 0.57585916 0.93488815 0.78293320
위와 같아서는 끝부분의 Endoplasmic.Retriculum 의 경우 어떤 단백질에 대한 내용인지 알아보기 어렵다.
그래서 첫번째 열을 행이름으로 리셋하기 위해 다음과 같이 한다.
> row.names(proteinconc) = proteinconc[,1]
> proteinconc
이제 행의 이름이 숫자에서 단백질 이름으로 변경된 것을 볼 수 있다.
하지만 상단 데이터의 경우 단백질 이름이 중복해서 나온다.
아래 명령어로 데이터 프레임에서 첫번째 행을 제거한다.
> proteinconc = proteinconc[,-1]
> proteinconc
rdata 타입의 파일을 로딩할 때는 다음의 명령어를 입력한다.
> load("proteinconc.rdata")
'프로그래밍 Programming' 카테고리의 다른 글
R 프로그래밍 - Plotting Data : Histograms (0) | 2014.08.14 |
---|---|
R 프로그래밍 - Plotting Data (좌표로 나타내기) : Dot plot(점도표) (0) | 2014.08.09 |
R 프로그래밍 - Data Types (Converting/Using) (2) | 2014.08.02 |
R 프로그래밍 - Data Types (logical, vector, matrix, array, data.frame, list) (0) | 2014.08.02 |
R 프로그래밍 - Data Types (numeric, integer, character) (0) | 2014.08.02 |