더북(TheBook)

문제 정의 및 이해

컴페티션에서 제시한 문제가 무엇인지, 주어진 데이터와 도메인 지식(Domain Knowledge)을 바탕으로 내가 풀려는 문제를 정의하는 단계입니다. 더 구체적으로 이야기하면 ‘문제를 정의한다는 것’은 다음을 뜻합니다.

표면적으로 드러나는 목적을 달성하기 위해, 도메인 지식과 데이터를 보고 이해한 것을 바탕으로 개발 방향을 스스로 결정하는 과정

간단한 예를 하나 들어보겠습니다. 한자(漢字)의 글씨체를 자동으로 인식하는 시스템을 개발해야 한다고 생각해봅시다. 이에 대해 다음과 같이 조금 막연하게 문제를 정의해볼 수 있습니다.

글씨체 이미지를 정답 클래스로 예측하는 머신러닝 모델을 개발한다.

이 문제 정의로는 그저 필체 인식을 위한 딥러닝 모델 구조를 구성하고 주어진 데이터로 학습시키도록 설계하기만 해도 본래 목적을 어느 정도 달성한 것으로 볼 수 있습니다. 그런데 한자의 글자 수가 워낙 다양하고 많다 보니 특정 글자는 글씨체 데이터가 충분하지 않을 수 있다고 유추해볼 수 있습니다. 이런 아이디어와 질문은 보통 자신이 평소에 알고 있던 지식과 경험, 그리고 데이터 분석 과정에서 자연스럽게 떠오르는 생각으로부터 출발합니다. 앞서 정의했던 문제에 유추한 생각을 더해 다음과 같이 문제를 더 구체적으로 정의해볼 수 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.