더북(TheBook)

postsVotesOuter DataFrame 내용을 살펴보면 일부 로우의 votes 칼럼에 null 값이 포함된 것을 알 수 있다. 이는 투표 결과가 없었던 포스트다. 두 DataFrame 모두 id 칼럼을 포함하므로 postsDf DataFrame 객체의 Column 객체를 생성해 어느 쪽의 id 칼럼을 참조할지 명시적으로 지정해야 한다. 반면 postId 칼럼은 votesDf DataFrame에만 있으므로 스칼라 Symbol을 암시적으로 변환해 Column 객체를 더 간단하게 생성할 수 있다.

조인 연산을 더 알아보려면 책의 깃허브 저장소에 있는 다른 이탈리아어 데이터셋을 살펴보고 다양한 조인을 시도해 보자. 배지, 답글, 포스트 이력, 포스트 링크, 태그 및 사용자 데이터 등 여러 CSV 파일을 찾을 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.