R 프로그래밍 - Reading in Data

728x90

그럼 예제 파일을 가지고 시작해보자.

R 프로그램의 working directory 는 다음의 명령어로 확인가능하다.

> getwd()

[1] "C:/Users/fukaeri/Documents"

작업 디렉토리 변경은 다음과 같이 한다. setwd() 명령어로는 새폴더를 생성할 수는 없다. 그러므로 해당 폴더가 없는 경우라면 먼저 폴더를 생성한 후 작업 디렉토리로 지정해야 한다.

> setwd(C:/Users/myusername/Documents/My Other R Stuff)

본 예제에 필요한 파일을 아래 링크에서 다운로드한 후 다음과 같이 입력한다.

http://sites.google.com/site/undergraduateguidetor/manual-files

> proteinconc = read.csv("proteinconc.csv", header=TRUE)

> class(proteinconc)

[1] "data.frame"

read.csv() : 데이터를 R 로 가져오기 위한 함수(R은 새로운 data frame 을 만들어서 해당 데이터를 가지고 있는다)

read.csv("가져올 파일 이름", header=TRUE)

header=TRUE 는 해당 데이터의 첫번째 열이 헤더임을 의미한다.

데이터 프레임 출력

> proteinconc
           X   Nucleus Nuclear.Membrane Cell.Membrane Cytoplasm
1 Protein A 0.8130102       0.57037020    0.83259180 0.65253323
2 Protein B 0.6721608       0.11733711    0.36397878 0.29172480
3 Protein C 0.9999900       0.20000000    0.10000000 0.10000000
4 Protein D 0.1362260       0.62458998    0.47661581 0.20027876
5 Protein E 0.1926978       0.57585916    0.93488815 0.78293320

위와 같아서는 끝부분의 Endoplasmic.Retriculum 의 경우 어떤 단백질에 대한 내용인지 알아보기 어렵다.

그래서 첫번째 열을 행이름으로 리셋하기 위해 다음과 같이 한다.

> row.names(proteinconc) = proteinconc[,1]

> proteinconc

이제 행의 이름이 숫자에서 단백질 이름으로 변경된 것을 볼 수 있다.

하지만 상단 데이터의 경우 단백질 이름이 중복해서 나온다.

아래 명령어로 데이터 프레임에서 첫번째 행을 제거한다.

> proteinconc = proteinconc[,-1]

> proteinconc

rdata 타입의 파일을 로딩할 때는 다음의 명령어를 입력한다.

> load("proteinconc.rdata")

728x90

저작자표시 비영리 변경금지 (새창열림)

'Season 1 아카이브 > 프로그래밍' 카테고리의 다른 글

R 프로그래밍 - Plotting Data : Histograms (0)	2014.08.14
R 프로그래밍 - Plotting Data (좌표로 나타내기) : Dot plot(점도표) (0)	2014.08.09
R 프로그래밍 - Data Types (Converting/Using) (2)	2014.08.02
R 프로그래밍 - Data Types (logical, vector, matrix, array, data.frame, list) (0)	2014.08.02
R 프로그래밍 - Data Types (numeric, integer, character) (0)	2014.08.02

갈루아의 반서재

R 프로그래밍 - Reading in Data

'Season 1 아카이브 > 프로그래밍' 카테고리의 다른 글

티스토리툴바