예를 들어 [cats]와 매칭되는 단어를 찾아보겠습니다. 단, 단어로 인식되지 않고 문자열 하나하나로 매핑된다는 것에 주의하세요.
import re com = re.compile('[cats]') com.findall('I love cats.')
결과는 다음과 같습니다. cats를 하나의 단어로 인식하지 않고 문자열을 하나씩 매핑하여 결과가 출력되었습니다.
['c', 'a', 't', 's']
데이터셋은 타토에바 프로젝트(https://tatoeba.org/ko) 중에서 영어-프랑스어 파일을 사용합니다. 다음 URL에서 다양한 언어에 대한 것들을 제공하고 있기 때문에 예제에서 사용하는 영어-프랑스어 외에도 다른 언어를 내려받아 사용할 수 있습니다. 물론 영어-한국어도 제공합니다.
http://www.manythings.org/anki/
데이터셋은 다음과 같이 영어와 프랑스어로 구성되어 있습니다.
Would you play with me? Voudriez-vous jouer avec moi ? Yes, I'm a student too. Oui, je suis aussi étudiant. Yesterday was Thursday. Hier, c'était jeudi. You are a good student. Tu es un bon étudiant.
파이토치에서는 문장 그대로 사용할 수 없습니다. 문장을 단어로 분할하고 벡터(vector)로 변환해야 합니다.