Note ≡ | 아이리스(붓꽃) 데이터셋
아이리스(붓꽃) 데이터셋은 꽃잎의 너비와 길이 등을 측정한 데이터이며 150개의 레코드로 구성되어 있습니다. 아이리스 꽃은 다음 그림과 같으며 프랑스의 국화로도 알려져 있습니다.
▲ 그림 11-7 아이리스 꽃(출처: https://www.kaggle.com/alexisbcook/distributions)
‘object’라는 데이터 타입을 갖는 Species 칼럼은 숫자가 아닌 단어로 구성되어 있습니다. 단어는 꽃잎의 너비와 길이에 따라 아이리스(붓꽃)의 세 가지 범주를 나타냅니다. 이와 같이 단어를 숫자로 바꾸어 주는 것을 워드 임베딩이라고 하며, 이를 위한 다양한 방법이 있지만 여기에서는 get_dummies()를 사용합니다.
코드 11-3 워드 임베딩
data = pd.get_dummies(df, columns=['Species'])
data