더북(TheBook)

1.2.1 확률적 모델링

확률적 모델링(probabilistic modeling)은 통계학 이론을 데이터 분석에 응용한 것입니다. 초창기 머신 러닝 형태 중 하나고 요즘도 널리 사용됩니다. 가장 잘 알려진 알고리즘 중 하나는 나이브 베이즈(Naive Bayes) 알고리즘입니다.

나이브 베이즈는 입력 데이터의 특성이 모두 독립적이라고 가정하고 베이즈 정리(Bayes’ theorem)를 적용하는 머신 러닝 분류 알고리즘입니다. (강한 또는 ‘순진한(naive)’ 가정입니다. 여기에서 이름이 유래되었습니다.) 이런 형태의 데이터 분석은 컴퓨터보다 앞서 있었기 때문에 첫 번째 컴퓨터가 등장하기 수십 년 전에는 수작업으로 적용했습니다(거의 1950년대로 거슬러 올라갑니다). 베이즈 정리와 통계의 토대는 18세기까지 거슬러 올라갑니다. 이 정도가 나이브 베이즈 분류기를 사용하기 위해 알아야 할 전부입니다.

이와 밀접하게 연관된 모델이 로지스틱 회귀(logistic regression)입니다(줄여서 logreg라고 하겠습니다). 이 모델은 현대 머신 러닝의 “hello world”로 여겨집니다. 이름 때문에 혼동하지 마세요. logreg는 회귀(regression) 알고리즘이 아니라 분류(classification) 알고리즘입니다.10 나이브 베이즈와 매우 비슷하게 logreg는 컴퓨터보다 훨씬 오래전부터 있었습니다. 하지만 간단하고 다목적으로 활용할 수 있어서 오늘날에도 여전히 유용합니다.

데이터 과학자가 분류 작업에 대한 감을 빠르게 얻기 위해 데이터셋에 적용할 첫 번째 알고리즘으로 선택하는 경우가 많습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.