더북(TheBook)

UNIT 04
정리

데이터는 의미를 지닌 값들입니다.

데이터 특성에는 종류, 구조, 형태가 있습니다. 데이터 특성에 따라 분석 기법이 달라집니다.

 

데이터 종류

데이터 종류는 자료형이라고 합니다. 데이터 타입과도 같은 말입니다.

R에서 데이터 종류는 크게 숫자형, 문자형, 논리형이 있습니다.

숫자형(numeric)은 숫자 체계를 갖는 데이터를 의미합니다.

문자형(character)은 텍스트 형태의 데이터를 의미합니다. 작은따옴표(‘)나 큰따옴표(“)를 사용하여 ‘문자’나 “문자” 같은 형태로 입력하면 문자형이 됩니다.

문자형 중에는 날짜형 같은 특수한 자료형도 있습니다.

논리형(logical)은 참과 거짓을 나타내는 데이터를 의미합니다.

class() 함수는 데이터 종류나 구조를 확인해서 출력합니다.

 

데이터 구조

데이터 구조에는 벡터, 팩터, 행렬, 배열, 리스트, 데이터 프레임 등이 있습니다.

벡터(vector)는 크기와 순서를 갖는 R의 가장 기본적인 데이터 구조입니다. 다른 데이터 구조를 다시 구성하기도 합니다.

팩터(factor)는 카테고리로 분류할 수 있는 데이터 값(범주 값)을 관리하는 데이터 구조입니다.

행렬(matrix)은 행(row)과 열(column)로 구성된 2차원 구조입니다.

배열(array)은 행렬과 유사하지만, 차원(dimension) 속성을 가진 데이터 구조입니다.

리스트(list)는 여러 종류의 자료형을 가질 수 있으며, 여러 데이터 구조도 담을 수 있습니다.

데이터 프레임(dataframe)은 다양한 데이터를 자료형별로 모아서 2차원으로 관리하는 데이터 구조입니다. 가장 많이 씁니다.

데이터 프레임은 좌표와 이름으로 데이터를 선택할 수 있습니다(추가로 인덱스로도 선택 가능합니다).

티블(tibble)은 데이터 프레임을 사용하기 편리하게 변형한 데이터 구조입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.