아래 글의 내용은 Coursera의 Computing for Data Analysis 를 참고하였습니다. 문제시 삭제하겠습니다. 나는 대학원에서 Social Computing, Online Social Network analysis 등에 관해 연구를 하고 있는데, 데이터 분석을 위해 주로 R을 사용한다. 처음에는 연구실 사람들이 다 쓰니까 썼지만, R은 언어가 쉽기도 하지만 다양한 통계패키지들이 잘 되어 있고 비주얼라이제이션도 잘 되기 때문에 많이 사용되는 것 같다. 특히 R의 단점 중 하나가 싱글 머신에서의 대용량 처리에 적합하지 않다는 것인데 (single core를 이용하며, in-memory 방식으로 동작한다), 데이터 분석을 할때는 싱글머신 이상의 데이터를 한번에 올리는 경우는 그렇게 많지 않아..
Linear regression에서 사용하게 되는 gradient descent 알고리즘은 feature 별로 각각 partial derivative를 계산하며 그 수 별로 iteration이 필요하다. 따라서 iteration을 최소화 하면서 빠르게 모델을 찾는 것이 computer scientist의 입장에서는 issue일 것이다. 실제로 알고리즘을 돌릴 때 유의할 점 들이다. 1. feature scaling각각의 feature들은 그 scale이 천차만별이 될 수 있다. 즉, 나이와 같은 값은 0~100언저리 쯤 될 것이고, 재산의 경우는 그 범위가 훨씬 클 것이다. 이 feature들의 range에 따라서 알고리즘이 잘 동작하지 않을 수 있다. 따라서 그 scale을 비슷하게 만들어 주는 것이 ..
Linear regression 대한민국 국민들의 연봉에 관한 데이터가 있을 때, 각 개인의 키에 따른 연봉을 본다고 생각해 보자. 이런 개인의 특징을 이용하여 연봉을 예측하고자 할때 가장 기본적으로 사용할 수 있는 모델이 Linear regression 이다. 이는 통계학에서 사용되는 것과 동일한 개념이다. 통계학에서는 모델의 유의성, 변수의 중요도 등에 초점을 맞추는 반면 머신 러닝에서는 예측 자체를 위한 알고리즘에 초점을 맞춘다. 위의 문제에서는 키와 연봉에 관한 데이터가 하나의 데이터가 되며 그 모임이 모델을 만들때 사용되는 트레이닝 셋이다. 예측에 이용하는 feature가 하나이면 univariate, 여러 개이면 multivariate 이며 각 feature의 선형 결합에 의해 모델을 구성하면..
- Total
- Today
- Yesterday
- android
- Reverse Engineering
- 데이터 사이언스
- 운영체제
- 이산수학
- 자바
- 기계학습
- Algorithms
- statistical learning
- Data Structure
- linux
- Discrete Mathematics
- Machine Learning
- 카타르 음주
- 리버스엔지니어링
- 알고리즘
- 머신러닝
- 데이터 과학
- 리버싱
- operating systems
- 통계학습
- 안드로이드
- 대학원
- 카타르
- 리눅스
- reversing
- java
- Data Science
- 자료구조
- 개발
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |