머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 2.2 수학적 언어의 필요성

2.2 수학적 언어의 필요성

일부 수학적인 내용을 다루지 않고 머신 러닝(ML)을 이야기하기는 매우 어렵습니다. 어떤 ML 교과서들은 머신 러닝을 다루는 수학책으로 보일 정도입니다. 저는 그 반대로 하려고 합니다. 여러분이 책에서 사용하는 수학을 이해하길 바랍니다. 어떤 수학 기호를 보았을 때 그것이 의미하는 것을 직관적으로 이해할 수 있었으면 합니다. 그래서 수학적인 내용은 최소화할 것입니다. 여러분이 이 멋진 여행으로 수학을 기호뿐만 아니라 코드로도 인식하길 바랍니다.

어떤 독자는 수학을 더 깊게 파헤치고 싶을 수도 있습니다. 아주 좋은 현상입니다! 수학을 파헤치는 방법은 무궁무진합니다. 그런데 더 깊게 파헤치는 것은 이 책의 목표가 아닙니다. 저는 이 책에서 높은 수준의 수학보다는 머신 러닝 아이디어를 소개하고자 합니다. 수학 세계에서는 다음과 같은 일부 아이디어만 빌려 올 것입니다.

• 수식 단순화(대수학)

• 무작위성과 기회에 대한 몇 가지 개념(확률)

• 그리드 위에 데이터 시각화(기하학)

• 사칙 연산을 표현하는 수식(기호)

이 책에서는 아이디어를 간단하게 표현하는 데 대수학을 사용할 것입니다. 확률은 수많은 머신 러닝 방법의 근간을 이룹니다. 확률이 미친 영향력은 나이브 베이즈(Naive Bayes, NB) 등에서는 매우 직접적이지만, 서포트 벡터 머신(Support Vector Machine, SVM)이나 결정 트리(Decision Tree, DT) 등에서는 덜 직접적입니다. SVM이나 DT는 데이터의 기하학적 표현에 더 직접적으로 의존합니다. 반면 NB 같은 방법은 기하학적인 관점에서 보는 것이 쉽지 않습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.