더북(TheBook)

LESSON 01
데이터 선택하기

이 장에서 사용할 데이터는 DACON(데이콘, AI 경진대회 플랫폼)에서 KLUE(Korean Language Understanding Evaluation, 한국어 자연어 이해 벤치마크 데이터 세트) 데이터를 경진대회용으로 재분류한 데이터다. 이 KLUE-DACON 데이터를 선택한 이유는 뉴스의 타이틀(title)만 있기 때문이다. 용량이 작아 초보자가 입문용으로 사용하기에 적합하다.

데이콘의 해당 데이터 세트는 CC-BY-4.0 라이센스다. 이 책에서 제공하는 코랩으로 실습할 때는 제공되는 소스코드를 실행하는 것만으로 데이터를 불러올 수 있다(5.4절 참고). 로컬 컴퓨터에 내려받아 사용한다면 데이콘에서 직접 다운로드하는 것을 권장한다(아래 링크 참고).

또한, 마감된 경진대회지만 다른 팀의 결과와 비교해 보고 코드 예시도 살펴보면서 약식으로나마 경진대회를 경험해 보자.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.