LESSON 01
데이터 선택하기
이 장에서 사용할 데이터는 DACON(데이콘, AI 경진대회 플랫폼)에서 KLUE(Korean Language Understanding Evaluation, 한국어 자연어 이해 벤치마크 데이터 세트) 데이터를 경진대회용으로 재분류한 데이터다. 이 KLUE-DACON 데이터를 선택한 이유는 뉴스의 타이틀(title)만 있기 때문이다. 용량이 작아 초보자가 입문용으로 사용하기에 적합하다.
데이콘의 해당 데이터 세트는 CC-BY-4.0 라이센스다. 이 책에서 제공하는 코랩으로 실습할 때는 제공되는 소스코드를 실행하는 것만으로 데이터를 불러올 수 있다(5.4절 참고). 로컬 컴퓨터에 내려받아 사용한다면 데이콘에서 직접 다운로드하는 것을 권장한다(아래 링크 참고).
또한, 마감된 경진대회지만 다른 팀의 결과와 비교해 보고 코드 예시도 살펴보면서 약식으로나마 경진대회를 경험해 보자.