더북(TheBook)

다음은 코퍼스에 토큰화를 진행한 결과입니다.

[['once',
  'upon',
  'a',
  'time',
  'in',
  'london',
  ',',
  'the',
  'darlings',
  'went',
  'out',
  'to',
  'a',
  'dinner',
  'party',
  'leaving',
  'their',
  'three',
  'children',
  'wendy',
  ',',
  'jhon',
  ',',
  'and',
  'michael',
  'at',
  'home',
  '.'],
... 이하 생략 ...

출력 결과를 보면 단어 기준으로 토큰화가 되어 있는데, CBOW와 skip-gram을 이용하여 단어 간 유사성을 살펴보겠습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.