더북(TheBook)

예를 들어 [cats]와 매칭되는 단어를 찾아보겠습니다. 단, 단어로 인식되지 않고 문자열 하나하나로 매핑된다는 것에 주의하세요.

import re
com = re.compile('[cats]')
com.findall('I love cats.')

결과는 다음과 같습니다. cats를 하나의 단어로 인식하지 않고 문자열을 하나씩 매핑하여 결과가 출력되었습니다.

['c', 'a', 't', 's']

데이터셋은 타토에바 프로젝트(https://tatoeba.org/ko) 중에서 영어-프랑스어 파일을 사용합니다. 다음 URL에서 다양한 언어에 대한 것들을 제공하고 있기 때문에 예제에서 사용하는 영어-프랑스어 외에도 다른 언어를 내려받아 사용할 수 있습니다. 물론 영어-한국어도 제공합니다.

http://www.manythings.org/anki/

데이터셋은 다음과 같이 영어와 프랑스어로 구성되어 있습니다.

Would you play with me?   Voudriez-vous jouer avec moi ?
Yes, I'm a student too.   Oui, je suis aussi étudiant.
Yesterday was Thursday.   Hier, c'était jeudi.
You are a good student.   Tu es un bon étudiant.

파이토치에서는 문장 그대로 사용할 수 없습니다. 문장을 단어로 분할하고 벡터(vector)로 변환해야 합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.