◼︎ 인공지능을 이용한 분석은 독립변수(X)와 종속변수(Y, label)를 알려 주면 컴퓨터 스스로 학습 모델을 만듭니다.
그림 14-2 | 인공지능 분석
통계적 분석은 입력 데이터가 바뀔 때마다 적당한 알고리즘을 적용하여 출력(결과) 데이터를 추출(데이터가 바뀔 때마다 매번 수행)합니다. 반면 인공지능을 이용한 데이터 분석은 입력과 출력(결과) 데이터만 있으면 자동으로 학습 알고리즘을 생성하기 때문에 유사한 목적의 데이터 분석에 알고리즘을 재활용할 수 있습니다.
하지만 여기에서 오해하면 안 될 점은 확률/통계가 인공지능으로 대체된 것이 아니라 확률/통계 개념이 인공지능에 추가되었다는 것입니다. 즉, 인공지능에서 입력 데이터를 가공할 때(가중합 단계를 거칠 때) 가중치라는 확률/통계 개념을 추가했습니다.
예를 들어 음악 장르 중 ‘힙합, 재즈, 팝’ 등 카테고리로 분류하는 알고리즘을 만든다고 가정합시다. 가장 먼저 생각할 수 있는 방법은 특정 단어(작곡가 이름, 음악 제목 등)의 사용 빈도에 따른 분류 방식에 대한 알고리즘입니다. 이때 ‘특정 단어’들이 X, Y 등 변수가 되고 ‘사용 빈도’가 가중치가 됩니다. 결국 알고리즘 정확도는 어떤 가중치를 사용하느냐에 따라 정확도가 달라지기에 프로그래머가 임의로 가중치를 설정하지 않고 과거 데이터를 컴퓨터에 입력하여 추출된 단어의 빈도 값(확률/통계)을 가중치로 활용한다면 원하는 결과의 정확도에 더 가까워질 수 있습니다.
이와 같이 인공지능을 이용한 데이터 분석은 확률/통계를 대체하기보다는 확률/통계의 개념을 인공지능 데이터 분석에 도입하여 사용하는 것입니다.