가끔 Data Science를 위해 R이나 Python을 공부하려고 하는데, 어떤 좋은 소스가 있는지에 대한 질문을 받는다. 요새는 좋은 책도 많아 책으로 공부하는 방법도 추천하지만, 오늘 소개하려고 하는 사이트는 DataCamp라는 사이트이다. Data Science를 위해 많이 사용되는 R과 Python의 코스를 제공하며 언어에 대해 전혀 경험이 없는 사람들을 위한 기본 코스부터 통계학, 머신러닝 지식이 필요한 코스까지 다양하다. 내가 생각하는 DataCamp의 장점과 단점은 다음과 같다.장점1. 단계별로 간단한 코드 문제가 나오고 풀어가는 방식으로 interactive하게 설계되어 재미있음 2. 코스가 무겁지 않게 잘 나누어 설계되어 있어 질리지 않고 계속 공부할 수 있음 3. 각 코스마다 cert..
데이터에 기반한 modelling을 할 때 자주 나오는 개념인 bias-variance tradeoff. 중요하지만 헷갈릴 수 있는 개념인데 쉽게 정리된 글을 Quora에서 발견하여 번역하여 공유한다. 원문: How would you explain the bias-variance tradeoff to a five year old? 이 그림 하나면 Bias-Variance tradeoff를 설명하기에 충분할 것이다. 모델링, 통계학, 머신러닝 등에 대해서 알고 있다면 위의 의미를 더 깊게 이해해 보자. 데이터가 가지고 있는 불확실성이나 noise 뿐만 아니라 모든 학습 알고리즘은 두 가지 종류의 에러를 가진다. 1. Bias2. Variance Error(X) = noise(X) + bias(X) + va..
해당 포스트는 Standford Online Course의 Statistical Learning 강좌를 정리하고 공유하기 위한 포스트로, 대부분의 자료는 강의자료에서 참조하였으나 본인의 의견도 들어가 있을수 있습니다.선형 회귀 분석 (Linear Regression)은 회귀 분석에 사용되는 가장 간단한 모델로 간단하지만 매우 유용하다. 선형 회귀 분석을 통해 independent variable과 dependent variable간에 어떤 관계가 있는지, 그 관계는 얼마나 strong 한 지, 해당 모델을 이용할 경우 값을 얼마나 정확히 예측 가능한 지 등을 알 수 있다. 1. 단순 선형 회귀 분석(Simple Linear Regression) single predictor X 를 가지는 simple l..
해당 포스트는 Standford Online Course의 Statistical Learning 강좌를 정리하고 공유하기 위한 포스트로, 대부분의 자료는 강의자료에서 참조하였으나 본인의 의견도 들어가 있을수 있습니다. Supervised Learning은 크게 두 가지 문제로 나눌 수 있다.첫째는 Regression(회귀) 이고, 다른 하나는 Classification (분류) 이다. 모델을 통해서 예측하려는 Y의 값이 linear 하면 회귀 문제, categorical 하면 분류 문제가 된다. 즉 어떤 모델을 이용해서 주가 변동을 예측한다고 해보자. 실제 '주가 지수'를 예측한다면 회귀 문제가 되고, 주가가 오르는지/내리는지 예측하는 것이라면 분류 문제가 된다. 1. 모델의 성능을 측정하기 회귀와 분류..
Statistical Learning은 통계적인 모델을 이용하여 데이터를 학습시키고,, 어떠한 결과를 얻어내는 방법을 말한다. 이 책을 통해 알아야 할 것은 1) 언제, 왜 각각의 모델을 사용해야 하는가 2) 어떻게 각 모델-알고리즘이 동작하는가? 3) 어떻게 성능을 평가하는가. 크게 이 세 가지로 나눌 수 있다. 이 세상에 수많은 학습 모델들이 있지만 우리가 데이터 분석 시 실제로 그것들을 구현하지는 않는다. 이미 똑똑하신 많은 연구자들이 언어별로 알고리즘을 구현해 두었고 우리는 사용하기만 하면 된다. 하지만 각각의 모델을 언제 사용하고, 결과를 어떻게 해석해야 하는지는 알아야 적절히 사용할 수 있을 것이다. 데이터를 통해 학습시키는 변수는 X라 표시하고 predictor, 또는 regressors, ..
Introduction to Statistical Learning 이라고, 머신 러닝에서의 기본적인 개념들에 대해 이야기하는 입문서와 같은 책이 있다. 하드카피는 돈 받고 팔지만, 책은 online에서 pdf로 오픈이다! (물론 엄밀히 말하면 Statistical Learning의 입문이다. Machine Learning과의 자세한 차이는 이후 포스트에 나올 것이다)다운 받으러 가기 얼마전에 책을 한 번 보고 너무 많이 배워서, 또 정리할 겸 봐야겠다고 생각하고 있었는데 마침 Stanford 에서 제공하는 온라인 강좌에 해당 교재를 가지고 진행하는 강좌가 떠서, 듣게 되었다. 앞으로 강좌를 들으며 챕터별로 간단히 정리해서 포스트 할 예정인데 혹시 포스트가 중간에 끊어질 경우 이어서 올려달라고 압박을 넣어..
Linear regression에서 사용하게 되는 gradient descent 알고리즘은 feature 별로 각각 partial derivative를 계산하며 그 수 별로 iteration이 필요하다. 따라서 iteration을 최소화 하면서 빠르게 모델을 찾는 것이 computer scientist의 입장에서는 issue일 것이다. 실제로 알고리즘을 돌릴 때 유의할 점 들이다. 1. feature scaling각각의 feature들은 그 scale이 천차만별이 될 수 있다. 즉, 나이와 같은 값은 0~100언저리 쯤 될 것이고, 재산의 경우는 그 범위가 훨씬 클 것이다. 이 feature들의 range에 따라서 알고리즘이 잘 동작하지 않을 수 있다. 따라서 그 scale을 비슷하게 만들어 주는 것이 ..
Linear regression 대한민국 국민들의 연봉에 관한 데이터가 있을 때, 각 개인의 키에 따른 연봉을 본다고 생각해 보자. 이런 개인의 특징을 이용하여 연봉을 예측하고자 할때 가장 기본적으로 사용할 수 있는 모델이 Linear regression 이다. 이는 통계학에서 사용되는 것과 동일한 개념이다. 통계학에서는 모델의 유의성, 변수의 중요도 등에 초점을 맞추는 반면 머신 러닝에서는 예측 자체를 위한 알고리즘에 초점을 맞춘다. 위의 문제에서는 키와 연봉에 관한 데이터가 하나의 데이터가 되며 그 모임이 모델을 만들때 사용되는 트레이닝 셋이다. 예측에 이용하는 feature가 하나이면 univariate, 여러 개이면 multivariate 이며 각 feature의 선형 결합에 의해 모델을 구성하면..
머신 러닝이란?인공지능 분야 중 하나로써, 컴퓨터에게 데이터를 학습시키고, 그를 바탕으로 예측, 분류와 같은 어떤 작업을 수행하도록 하는 것을 의미한다. 보다 Formal하게는, 다음과 같이 정의되기도 한다.Tom Mitchell (1998) Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E. 머신러닝의 예로는, 간단하게는 대부분의 메일 서비스에서 제공하는 스팸판단 기능을 들 수..
- Total
- Today
- Yesterday
- 머신러닝
- android
- 통계학습
- 개발
- 기계학습
- 리버싱
- Algorithms
- 카타르 음주
- 이산수학
- 안드로이드
- 리버스엔지니어링
- 데이터 과학
- 운영체제
- Reverse Engineering
- 자료구조
- java
- 데이터 사이언스
- Discrete Mathematics
- operating systems
- 리눅스
- statistical learning
- 대학원
- 자바
- Data Structure
- Data Science
- Machine Learning
- 알고리즘
- linux
- reversing
- 카타르
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |