더북(TheBook)

SECTION 1.1 임베딩

임베딩 벡터, 줄여서 임베딩(embedding)은 비교적 고차원 데이터를 저차원 벡터로 인코딩합니다.

임베딩을 사용해 (희소한) 원-핫 인코딩으로부터 (희소하지 않은) 밀집 벡터(dense vector)를 만들 수 있습니다. 원-핫 인코딩(one-hot encoding)은 범주형 데이터(categorical data)를 이진 벡터(binary vector)로 표현하는 방법입니다. 이 경우 각 범주는 범주의 인덱스에 해당하는 위치가 1이고 나머지는 모두 0인 벡터에 매핑됩니다. 이를 통해 특정 머신 러닝 알고리즘이 처리할 수 있도록 범주형 값을 표현합니다. 예를 들어 3개의 범주 Red, Green, Blue를 가진 범주형 변수 Color가 있다면, 원-핫 인코딩은 Red를 [1, 0, 0], Green을 [0, 1, 0], Blue를 [0, 0, 1]로 표현할 수 있습니다. 학습 가능한 임베딩 층(layer)이나 모듈(module)의 가중치 행렬을 사용해 이런 원-핫 인코딩 범주형 변수를 연속적인 임베딩 벡터로 매핑할 수 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.