더북(TheBook)

02 | 데이터 불러오기

파일을 R로 읽어들이고 나면 각 컬럼이 올바른 포맷으로 지정되었는지 확인해야 하므로, 파일을 읽어들이는 작업은 항상 생각보다 까다롭다. read.csv( )를 사용해 파일을 읽어들이고, 불필요한 컬럼을 삭제한 뒤 데이터를 살펴보자.

> titanic = read.csv("titanic3.csv")
> titanic <- titanic[, !names(titanic) %in% c("home.dest", "boat", "body")]
> str(titanic)
'data.frame': 1309 obs. of 11 variables:
 $ pclass  : int 1 1 1 1 1 1 1 1 1 1 ...
 $ survived: int 1 1 0 0 0 1 1 0 1 0 ...
 $ name    : Factor w/ 1307 levels "Abbing, Mr. Anthony",..: 22 24 ...
 $ sex     : Factor w/ 2 levels "female","male": 1 2 1 2 1 2 1 2 ...
 $ age     : num 29 0.92 2 30 25 48 63 39 53 71 ...
 $ sibsp   : int 0 1 1 1 1 0 1 0 2 0 ...
 $ parch   : int 0 2 2 2 2 0 0 0 0 0 ...
 $ ticket  : Factor w/ 929 levels "110152","110413",..: 188 50 50 ...
 $ fare    : num 211 152 152 152 152 ...
 $ cabin   : Factor w/ 187 levels "","A10","A11",..: 45 81 81 81 ...
 $ embarked: Factor w/ 4 levels "","C","Q","S": 4 4 4 4 4 4 4 4 ...

데이터의 일부 또는 전체를 살펴보려면 head(변수명) 또는 View(변수명)을 사용한다. 특히 RStudio를 사용 중이라면 View(titanic) 명령을 사용할 경우 그림 11-1처럼 편리한 데이터 탐색 화면을 제공한다.

그림 11-1 View(titanic)의 실행 화면
그림 11-1 View(titanic)의 실행 화면
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.