딥러닝 텐서플로 교과서: 10.3 한국어 임베딩

① 단어 단위로 토큰화하여 딕셔너리에 저장됩니다. 이때 text를 []에 넣지 않으면 한 글자 단위로 인코딩됩니다.

다음은 텍스트를 토큰화한 출력 결과입니다.

array([[ 0, 0, 0, 0, 1, 2],
       [ 0, 0, 0, 1, 2, 3],
       [ 0, 0, 1, 2, 3, 4],
       [ 0, 1, 2, 3, 4, 5],
       [ 1, 2, 3, 4, 5, 6],
       [ 0, 0, 0, 0, 7, 8],
       [ 0, 0, 0, 7, 8, 9],
       [ 0, 0, 7, 8, 9, 10],
       [ 0, 7, 8, 9, 10, 11],
       [ 7, 8, 9, 10, 11, 12],
       [ 0, 0, 0, 0, 13, 14],
       [ 0, 0, 0, 13, 14, 15],
       [ 0, 0, 13, 14, 15, 16],
       [ 0, 13, 14, 15, 16, 17]])

x 값과 y 값을 정의합니다.

코드 10-66 x 값에 대한 정의

seqs = np.array(seqs) ------ seqs를 배열로 변환한 후 seqs에 저장합니다.
x = seqs[:,:-1] ------ 마지막 열을 제외한 모든 행과 열을 가져옵니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.