캐글 메달리스트가 알려주는 캐글 노하우: 7.4.3 토큰화

import seaborn as sns
import matplotlib.pyplot as plt

df_test = pd.read_csv(DATA_PATH + "test.csv")
df_test = preprocess(df_test)

test_token_length = tokenizer(
    text=df_test["comment_text"].tolist(), return_length=True
).length

plt.figure(figsize=(20, 6))
sns.distplot(test_token_length, bins=100)
plt.xticks(np.arange(0, 400, 50))
plt.show()

그림 7-11은 토큰 개수의 통계량을 시각화한 것입니다. 대체로 토큰 개수가 짧고, 양은 적지만 최대 400개에 가까운 토큰을 가진 텍스트도 있습니다. 여기서 텍스트 토큰 길이를 최대 얼마로 설정해야 할지 결정해야 합니다. 앞서 EDA의 텍스트 통계량에서도 한번 설명했듯이 이를 어떻게 설정하느냐에 따라 학습과 추론 성능 및 정보량 손실에 영향을 줄 수 있습니다. 이번 텐서플로 솔루션에서는 최대 길이(MAX_LEN)를 220으로 설정했습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.