① 단어 단위로 토큰화하여 딕셔너리에 저장됩니다. 이때 text[]에 넣지 않으면 한 글자 단위로 인코딩됩니다.

    다음은 텍스트를 토큰화한 출력 결과입니다.

    array([[ 0, 0, 0, 0, 1, 2],
           [ 0, 0, 0, 1, 2, 3],
           [ 0, 0, 1, 2, 3, 4],
           [ 0, 1, 2, 3, 4, 5],
           [ 1, 2, 3, 4, 5, 6],
           [ 0, 0, 0, 0, 7, 8],
           [ 0, 0, 0, 7, 8, 9],
           [ 0, 0, 7, 8, 9, 10],
           [ 0, 7, 8, 9, 10, 11],
           [ 7, 8, 9, 10, 11, 12],
           [ 0, 0, 0, 0, 13, 14],
           [ 0, 0, 0, 13, 14, 15],
           [ 0, 0, 13, 14, 15, 16],
           [ 0, 13, 14, 15, 16, 17]])

    x 값과 y 값을 정의합니다.

    코드 10-66 x 값에 대한 정의

    seqs = np.array(seqs) ------ seqs를 배열로 변환한 후 seqs에 저장합니다.
    x = seqs[:,:-1] ------ 마지막 열을 제외한 모든 행과 열을 가져옵니다.
    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.