다음으로 merge를 통해 토픽의 원래 명칭을 찾아 준다. 학습 데이터와 시험 데이터를 병합한 데이터에 topic 데이터 프레임을 merge로 병합한다. merge는 두 데이터 프레임의 공통의 행을 키값으로 연결해 준다. 여기서는 두 데이터 프레임에 모두 topic_idx라는 행이 있으므로 해당 행을 기준으로 데이터를 병합한다. 이때 how 파라미터를 "left"로 설정하면 raw 데이터를 왼쪽부터 병합한다.
df = raw.merge(topic, how="left") df.shape
실행 결과
(54785, 4)