02 | 데이터 불러오기
파일을 R로 읽어들이고 나면 각 컬럼이 올바른 포맷으로 지정되었는지 확인해야 하므로, 파일을 읽어들이는 작업은 항상 생각보다 까다롭다. read.csv( )를 사용해 파일을 읽어들이고, 불필요한 컬럼을 삭제한 뒤 데이터를 살펴보자.
> titanic = read.csv("titanic3.csv") > titanic <- titanic[, !names(titanic) %in% c("home.dest", "boat", "body")] > str(titanic) 'data.frame': 1309 obs. of 11 variables: $ pclass : int 1 1 1 1 1 1 1 1 1 1 ... $ survived: int 1 1 0 0 0 1 1 0 1 0 ... $ name : Factor w/ 1307 levels "Abbing, Mr. Anthony",..: 22 24 ... $ sex : Factor w/ 2 levels "female","male": 1 2 1 2 1 2 1 2 ... $ age : num 29 0.92 2 30 25 48 63 39 53 71 ... $ sibsp : int 0 1 1 1 1 0 1 0 2 0 ... $ parch : int 0 2 2 2 2 0 0 0 0 0 ... $ ticket : Factor w/ 929 levels "110152","110413",..: 188 50 50 ... $ fare : num 211 152 152 152 152 ... $ cabin : Factor w/ 187 levels "","A10","A11",..: 45 81 81 81 ... $ embarked: Factor w/ 4 levels "","C","Q","S": 4 4 4 4 4 4 4 4 ...
데이터의 일부 또는 전체를 살펴보려면 head(변수명) 또는 View(변수명)을 사용한다. 특히 RStudio를 사용 중이라면 View(titanic) 명령을 사용할 경우 그림 11-1처럼 편리한 데이터 탐색 화면을 제공한다.