UNIT 04
정리
• 데이터는 의미를 지닌 값들입니다.
• 데이터 특성에는 종류, 구조, 형태가 있습니다. 데이터 특성에 따라 분석 기법이 달라집니다.
• 데이터 종류
• 데이터 종류는 자료형이라고 합니다. 데이터 타입과도 같은 말입니다.
• R에서 데이터 종류는 크게 숫자형, 문자형, 논리형이 있습니다.
• 숫자형(numeric)은 숫자 체계를 갖는 데이터를 의미합니다.
• 문자형(character)은 텍스트 형태의 데이터를 의미합니다. 작은따옴표(‘)나 큰따옴표(“)를 사용하여 ‘문자’나 “문자” 같은 형태로 입력하면 문자형이 됩니다.
• 문자형 중에는 날짜형 같은 특수한 자료형도 있습니다.
• 논리형(logical)은 참과 거짓을 나타내는 데이터를 의미합니다.
• class() 함수는 데이터 종류나 구조를 확인해서 출력합니다.
• 데이터 구조
• 데이터 구조에는 벡터, 팩터, 행렬, 배열, 리스트, 데이터 프레임 등이 있습니다.
• 벡터(vector)는 크기와 순서를 갖는 R의 가장 기본적인 데이터 구조입니다. 다른 데이터 구조를 다시 구성하기도 합니다.
• 팩터(factor)는 카테고리로 분류할 수 있는 데이터 값(범주 값)을 관리하는 데이터 구조입니다.
• 행렬(matrix)은 행(row)과 열(column)로 구성된 2차원 구조입니다.
• 배열(array)은 행렬과 유사하지만, 차원(dimension) 속성을 가진 데이터 구조입니다.
• 리스트(list)는 여러 종류의 자료형을 가질 수 있으며, 여러 데이터 구조도 담을 수 있습니다.
• 데이터 프레임(dataframe)은 다양한 데이터를 자료형별로 모아서 2차원으로 관리하는 데이터 구조입니다. 가장 많이 씁니다.
• 데이터 프레임은 좌표와 이름으로 데이터를 선택할 수 있습니다(추가로 인덱스로도 선택 가능합니다).
• 티블(tibble)은 데이터 프레임을 사용하기 편리하게 변형한 데이터 구조입니다.