① 데이터셋을 불러오기 위해 read_csv()를 사용합니다.
ⓐ loc: 예제에서 사용할 데이터셋
ⓑ delimiter: CSV 파일의 데이터가 어떤 형태(\t, ' ', '+' 등)로 나뉘었는지 의미합니다. 데이터를 “ ”으로 묶어서 처리할 때 사용됩니다. 예를 들어 “Sure, I’m OK”처럼 문자열에 콤마가 포함되어 있을 경우 “Sure”와 “I’m OK”로 나뉘는데, 이를 방지할 수 있습니다. 즉, 하나의 문장이 분할되지 않고 그대로 사용하고 싶을 때 유용합니다.
ⓒ header: 일반적으로 데이터셋의 첫 번째 행을 header(열 이름)로 지정해서 사용하게 되는데, 불러올 데이터에 header가 없을 경우에는 header=None 옵션을 사용합니다.
ⓓ names: 열 이름을 리스트 형태로 입력합니다. 데이터셋은 총 두 개의 열이 있기 때문에 lang1, lang2를 사용합니다.
이제 데이터 쌍(pairs)을 텐서로 변환해야 합니다. 계속 이야기하지만 파이토치의 네트워크는 텐서 유형의 데이터만 인식하기 때문에 매우 중요한 작업입니다. 이 작업이 중요한 또 다른 이유는 지금 진행하고 있는 데이터셋이 문장이기 때문입니다. 따라서 문장의 모든 끝에 입력이 완료되었음을 네트워크에 알려 주어야 하는데, 그것이 토큰입니다.