데이터 과학을 위한 오픈 소스 도구: 파이썬
데이터 과학을 효과적으로 활용하려면 좋은 도구가 필수이다. 데이터 과학에는 고가의 복잡한 도구가 필요하다고 생각할 수 있겠지만, 최근에는 무료이면서 효율적이고 간결한 도구가 많이 나와 있다. 특히 오픈 소스의 등장과 함께 개방형 생태계에서 데이터 과학의 도구가 지속적으로 발전하고 있으며, 대표적인 예가 바로 R과 파이썬(Python)이다. 이 책에서는 데이터 과학을 위한 도구로 파이썬을 설명할 것이다. 물론 파이썬과 함께 많이 사용되는 R에 대한 실습도 각 장의 마지막에 제공하고자 한다.
데이터 과학의 컴퓨팅 도구로 사용되는 파이썬은 1990년대 후반 네덜란드 출신의 귀도 반 로섬(Guido van Rossum)이 개발하였다. 파이썬은 오픈 소스 언어로 플랫폼을 자유롭게 사용할 수 있으며, GPL(General Public License) 라이선스를 따른다.
▲ 그림 1-2 데이터 과학을 위한 무료 도구, 파이썬과 R
파이썬의 주요 특징으로는 고수준(high-level), 인터랙티브(interactive), 객체 지향(object oriented) 언어라는 점이 있다. 여기서의 고수준이란 사람이 이해하기 좋은 유형의 프로그래밍 언어를 의미한다. 인터랙티브라는 특징은 파이썬을 실행할 때 각 라인의 실행 결과를 바로 확인할 수 있다는 것을 의미한다. 마지막으로 객체 지향은 모든 자료, 함수 등이 객체화되어 간결하게 사용할 수 있다는 것을 나타낸다. 이런 특징으로 파이썬은 배우기 쉽고, 코드를 읽고 유지·관리하기에 매우 용이하다.