티스토리 뷰

Statistical Learning은 통계적인 모델을 이용하여 데이터를 학습시키고,, 어떠한 결과를 얻어내는 방법을 말한다.

이 책을 통해 알아야 할 것은

1) 언제, 왜 각각의 모델을 사용해야 하는가

2) 어떻게 각 모델-알고리즘이 동작하는가?

3) 어떻게 성능을 평가하는가.

크게 이 세 가지로 나눌 수 있다. 이 세상에 수많은 학습 모델들이 있지만 우리가 데이터 분석 시 실제로 그것들을 구현하지는 않는다. 이미 똑똑하신 많은 연구자들이 언어별로 알고리즘을 구현해 두었고 우리는 사용하기만 하면 된다. 하지만 각각의 모델을 언제 사용하고, 결과를 어떻게 해석해야 하는지는 알아야 적절히 사용할 수 있을 것이다.


데이터를 통해 학습시키는 변수는 X라 표시하고 predictor, 또는 regressors, covariates, features, 그리고 independent variable로 부른다. 이 변수들은 데이터의 관측을 통해서 얻어내는 값들이며, 관측하는 데이터가 사람의 정보라면 키, 몸무게, 성별, 나이 등이 될 수 있다.


Statistical Learning은 학습한 모델의 outcome mesaurement (depedent, response variable) 가 있는지 없는지에 따라 크게 Supervised Learning / Unsupervised Learning으로 나뉘게 된다. 메일 데이터로부터 여러 정보들을 학습해 메일이 스팸 메일인지, 아니면 일반 메일인지 판단하는 예측을 해야 한다고 하면, 이 경우에는 모델의 output이 명확하다. 스팸이거나, 일반 메일이거나 이다. 따라서 이 경우에는 Supervised Learning 문제가 될 것이다.


반면 Unsupervised Learning은 좀 더 복잡해지는데, Y값이 없는 문제이다. 즉, 데이터들이 있을 때 어떠한 모델의 학습을 통해, 데이터 간 관계를 통해 유사한 그룹들을 찾는다던가 (clustering), 우리가 가지고 있는 데이터를 잘 설명하는 어떤 숨겨진 요인들을 찾는다던가 (PCA) 등의 문제들이 있다. 이런 Unsupervised Learning은 supervised learning의 pre-processing 단계로써 사용되기도 한다.


그럼 Statistical Learning과 Machine Learning의 차이는 무엇일까?

기본적으로, statistical learning은 통계학의 한 분야이고, machine learning은 컴퓨터 과학 중 인공지능 (Artifical Intelligence)의 한 분야이다. 각각의 다른 분야에서 출발했기에 서로 다른 철학을 가지고 있는데, 머신 러닝은 large-scale 문제를 잘 풀기위한 알고리즘, 그리고 높은 정확도를 얻는 것, 등을 중요시 한다. 반면 Staistical Learning은 모델 자체, 그리고 모델의 해석, 정확도와 불확실성 등에 관해 초점을 두고 이해하려고 한다. 하지만 이 둘을 사실상 나누어 이해하는 것은 불가능하고, 최근에는 점점 overlap 되며 같이 발전하고 있는 분야라고 한다.



댓글