티스토리 뷰
Statistical Learning은 통계적인 모델을 이용하여 데이터를 학습시키고,, 어떠한 결과를 얻어내는 방법을 말한다.
이 책을 통해 알아야 할 것은
1) 언제, 왜 각각의 모델을 사용해야 하는가
2) 어떻게 각 모델-알고리즘이 동작하는가?
3) 어떻게 성능을 평가하는가.
크게 이 세 가지로 나눌 수 있다. 이 세상에 수많은 학습 모델들이 있지만 우리가 데이터 분석 시 실제로 그것들을 구현하지는 않는다. 이미 똑똑하신 많은 연구자들이 언어별로 알고리즘을 구현해 두었고 우리는 사용하기만 하면 된다. 하지만 각각의 모델을 언제 사용하고, 결과를 어떻게 해석해야 하는지는 알아야 적절히 사용할 수 있을 것이다.
데이터를 통해 학습시키는 변수는 X라 표시하고 predictor, 또는 regressors, covariates, features, 그리고 independent variable로 부른다. 이 변수들은 데이터의 관측을 통해서 얻어내는 값들이며, 관측하는 데이터가 사람의 정보라면 키, 몸무게, 성별, 나이 등이 될 수 있다.
Statistical Learning은 학습한 모델의 outcome mesaurement (depedent, response variable) 가 있는지 없는지에 따라 크게 Supervised Learning / Unsupervised Learning으로 나뉘게 된다. 메일 데이터로부터 여러 정보들을 학습해 메일이 스팸 메일인지, 아니면 일반 메일인지 판단하는 예측을 해야 한다고 하면, 이 경우에는 모델의 output이 명확하다. 스팸이거나, 일반 메일이거나 이다. 따라서 이 경우에는 Supervised Learning 문제가 될 것이다.
반면 Unsupervised Learning은 좀 더 복잡해지는데, Y값이 없는 문제이다. 즉, 데이터들이 있을 때 어떠한 모델의 학습을 통해, 데이터 간 관계를 통해 유사한 그룹들을 찾는다던가 (clustering), 우리가 가지고 있는 데이터를 잘 설명하는 어떤 숨겨진 요인들을 찾는다던가 (PCA) 등의 문제들이 있다. 이런 Unsupervised Learning은 supervised learning의 pre-processing 단계로써 사용되기도 한다.
그럼 Statistical Learning과 Machine Learning의 차이는 무엇일까?
기본적으로, statistical learning은 통계학의 한 분야이고, machine learning은 컴퓨터 과학 중 인공지능 (Artifical Intelligence)의 한 분야이다. 각각의 다른 분야에서 출발했기에 서로 다른 철학을 가지고 있는데, 머신 러닝은 large-scale 문제를 잘 풀기위한 알고리즘, 그리고 높은 정확도를 얻는 것, 등을 중요시 한다. 반면 Staistical Learning은 모델 자체, 그리고 모델의 해석, 정확도와 불확실성 등에 관해 초점을 두고 이해하려고 한다. 하지만 이 둘을 사실상 나누어 이해하는 것은 불가능하고, 최근에는 점점 overlap 되며 같이 발전하고 있는 분야라고 한다.
'Data Science' 카테고리의 다른 글
[Data Science/통계학습] Linear Regression (선형 회귀 분석) (0) | 2015.02.11 |
---|---|
[Data Science/통계학습] 모델을 선택하는 방법 (0) | 2015.02.09 |
[Data Science/통계학습] 온라인 강의 수강 및 포스팅 시작! (0) | 2015.02.09 |
gradient descent에서 유의할 것 (0) | 2014.01.09 |
Linear regression (선형 회귀 분석) (0) | 2014.01.09 |
- Total
- Today
- Yesterday
- operating systems
- 운영체제
- 통계학습
- 기계학습
- 알고리즘
- java
- 카타르 음주
- statistical learning
- 데이터 사이언스
- Machine Learning
- 데이터 과학
- 자료구조
- android
- Reverse Engineering
- 대학원
- 안드로이드
- linux
- 리버싱
- Data Structure
- 리눅스
- 리버스엔지니어링
- 카타르
- 이산수학
- 자바
- 머신러닝
- Discrete Mathematics
- Data Science
- Algorithms
- 개발
- reversing
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |