① 단어 단위로 토큰화하여 딕셔너리에 저장됩니다. 이때 text를 []에 넣지 않으면 한 글자 단위로 인코딩됩니다.
다음은 텍스트를 토큰화한 출력 결과입니다.
array([[ 0, 0, 0, 0, 1, 2],
[ 0, 0, 0, 1, 2, 3],
[ 0, 0, 1, 2, 3, 4],
[ 0, 1, 2, 3, 4, 5],
[ 1, 2, 3, 4, 5, 6],
[ 0, 0, 0, 0, 7, 8],
[ 0, 0, 0, 7, 8, 9],
[ 0, 0, 7, 8, 9, 10],
[ 0, 7, 8, 9, 10, 11],
[ 7, 8, 9, 10, 11, 12],
[ 0, 0, 0, 0, 13, 14],
[ 0, 0, 0, 13, 14, 15],
[ 0, 0, 13, 14, 15, 16],
[ 0, 13, 14, 15, 16, 17]])
x 값과 y 값을 정의합니다.
코드 10-66 x 값에 대한 정의
seqs = np.array(seqs) ------ seqs를 배열로 변환한 후 seqs에 저장합니다.
x = seqs[:,:-1] ------ 마지막 열을 제외한 모든 행과 열을 가져옵니다.