처음에 데이터를 이해하기 어렵다면 위와 같이 바닐라 데이터를 출력해 하나하나 살펴보면서 생각해보는 것을 추천합니다. comment_text의 길이가 엄청 다양하게 분포한다는 점, 알 수 없는 영어 문자와 URL이 보인다는 점 등 이러한 요소를 캐치하고 알아뒀다가 나중에 어떻게 처리할지 고민하고 적용해보는 것이죠.
사람마다 스타일이 다르기 때문에 가장 먼저 눈에 띄는 요소 또한 다를 수 있습니다. 본인의 스타일대로, 먼저 떠오르는 호기심대로 데이터를 바라본다면 분석이 한층 더 재미있을 겁니다.