석사 디펜스를 무사 통과했을 때만 해도 별 느낌이 없었는데, 인쇄된 내 석사논문을 보니 이제 2년이 지났고 내가 곧 석사를 취득한다는게 실감이 난다. 처음 들어왔을 때와 난 얼마나 달라졌고, 얼마나 성장했을까? 지식의 넓이와 깊이는 어떻게 달라졌을까? 어쩌면 큰 생각없이 진학을 결심했는데 박사과정으로 간다는게 이제 실감도 나고. 이게 내 주변의 사랑하는 사람들에게 희생을 감내하게 해야하는 일이 되지 않을까, 걱정도 많이 된다. 중심을 잘 잡아야 할 것 같다. 앞으로의 일은 제쳐두고 여기까지 온 건 많은 사람들의 도움이 없었다면 힘들었을 일이다. 그 감사한 많은 사람들에게 다시 무한한 감사함을 느끼며 석사논문에 적은 감사의 글을 포스팅한다. 설렘과 꿈을 안고 학교 정문을 들어섰던 게 엊그제 같은데, 벌써 ..
아래 글의 내용은 Coursera의 Computing for Data Analysis 를 참고하였습니다. 문제시 삭제하겠습니다. 나는 대학원에서 Social Computing, Online Social Network analysis 등에 관해 연구를 하고 있는데, 데이터 분석을 위해 주로 R을 사용한다. 처음에는 연구실 사람들이 다 쓰니까 썼지만, R은 언어가 쉽기도 하지만 다양한 통계패키지들이 잘 되어 있고 비주얼라이제이션도 잘 되기 때문에 많이 사용되는 것 같다. 특히 R의 단점 중 하나가 싱글 머신에서의 대용량 처리에 적합하지 않다는 것인데 (single core를 이용하며, in-memory 방식으로 동작한다), 데이터 분석을 할때는 싱글머신 이상의 데이터를 한번에 올리는 경우는 그렇게 많지 않아..
Linear regression에서 사용하게 되는 gradient descent 알고리즘은 feature 별로 각각 partial derivative를 계산하며 그 수 별로 iteration이 필요하다. 따라서 iteration을 최소화 하면서 빠르게 모델을 찾는 것이 computer scientist의 입장에서는 issue일 것이다. 실제로 알고리즘을 돌릴 때 유의할 점 들이다. 1. feature scaling각각의 feature들은 그 scale이 천차만별이 될 수 있다. 즉, 나이와 같은 값은 0~100언저리 쯤 될 것이고, 재산의 경우는 그 범위가 훨씬 클 것이다. 이 feature들의 range에 따라서 알고리즘이 잘 동작하지 않을 수 있다. 따라서 그 scale을 비슷하게 만들어 주는 것이 ..
Linear regression 대한민국 국민들의 연봉에 관한 데이터가 있을 때, 각 개인의 키에 따른 연봉을 본다고 생각해 보자. 이런 개인의 특징을 이용하여 연봉을 예측하고자 할때 가장 기본적으로 사용할 수 있는 모델이 Linear regression 이다. 이는 통계학에서 사용되는 것과 동일한 개념이다. 통계학에서는 모델의 유의성, 변수의 중요도 등에 초점을 맞추는 반면 머신 러닝에서는 예측 자체를 위한 알고리즘에 초점을 맞춘다. 위의 문제에서는 키와 연봉에 관한 데이터가 하나의 데이터가 되며 그 모임이 모델을 만들때 사용되는 트레이닝 셋이다. 예측에 이용하는 feature가 하나이면 univariate, 여러 개이면 multivariate 이며 각 feature의 선형 결합에 의해 모델을 구성하면..
머신 러닝이란?인공지능 분야 중 하나로써, 컴퓨터에게 데이터를 학습시키고, 그를 바탕으로 예측, 분류와 같은 어떤 작업을 수행하도록 하는 것을 의미한다. 보다 Formal하게는, 다음과 같이 정의되기도 한다.Tom Mitchell (1998) Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E. 머신러닝의 예로는, 간단하게는 대부분의 메일 서비스에서 제공하는 스팸판단 기능을 들 수..
리눅스에서 하드 용량을 확인하기 위한 명령어에 대한 포스팅입니다.기본 명령어 중 하나로 자주 사용됩니다. 이를 위해 df 라는 명령어를 사용하게 됩니다. 뜻은 disk free (?) 정도가 되겠네요. 리눅스 디스크 용량 확인을 위해서는: df 리눅스의 파일 시스템은 다들 아시다시피 파티션으로 관리가 됩니다.이름도 C:, D: 등의 윈도우 기반에서 사용되는 것이 아닌 /dev/sda1 등으로 되어 있어 헷갈립니다.설치시에 설정하시기에 따라 다르겠지만 대부분 /dev/sda 류가 실제 파일이 저장되는 공간이라고 보시면 됩니다.나머지의 공간들은 다른 목적을 위해 할당된 파일 파티션입니다. 명령어를 입력하면 다음과 같이 나옵니다.Filesystem 1K-blocks Used Available Use% Moun..
블로깅을 하다보면 주로 제가 사용하다 불편한 것들을 위주로 하게 되는데,이번 포스팅도 이런 실전형(?) 블로깅 이네요 ㅋㅋ win-sshfs 관련 포스팅에서도 언급했듯이,저희 연구실에서는 리눅스 워크스테이션을 사용하고 있습니다.그런데 다른 워크스테이션에서는 원격 터미널이 정상적으로 동작하는데,이상하게 우분투 서버를 사용하고 있는 워크스테이션에서 이상한 문제가 발생했습니다. 리눅스 쉘에서는 기존에 입력했던 명령어들을 키보드 윗 방향키를 눌렀을 때, 기존에 입력했던 명령어를 기억하여 로드해준 다던가자동 완성 기능으로 Tab키를 눌렀을 때 명령어를 완성시켜 주는데, 그런 기본적인 기능들이 안되는 것이었습니다. 저는 원격 클라이언트인 putty의 문제일거라 생각하고 이리저리 찾아보았지만 도무지 방법을 찾을 수 ..
보통 리눅스 서버에 연결하여 원격으로 작업하는 경우, ssh (secure shell)를 많이 사용합니다.하지만 파일 전송을 하는 경우 scp (secure copy), sftp (secure file transfer protocol)를 사용하게 되는데요.윈도우에서 리눅스 서버를 접근하는 사람의 경우 클라이언트 프로그램을 여러개를 사용하는 불편함이 생깁니다. 서버 접속을 해야하니 putty를 써야겠고, 파일 전송을 하려고 winscp를 또 쓰고.. 관리할 프로그램만 많아지게 됩니다.참 귀찮죠.그래서 원격 서버를 윈도우의 가상 드라이브처럼 사용할 수 있는 방법을 소개하고자 합니다. 그것은 sshfs라는 파일 시스템 클라이언트인데요. ssh를 이용하여 원격의 서버를 드라이브로 마운트해줍니다.쉽게 말하면 드라..
이름도 먹음직스러운 뽀모도로 기법 (Pomodoro Technique). 시간 관리 방법론 중 하나로 타이머를 이용해서 25분 집중하고, 5분 쉬고를 4번 반복한 후그 후 30분을 쉬는 방법이라 합니다.집중력이 낮고 주위가 산만한 사람들에게 추천된다고 하네요. 무엇보다 타이머만 있으면 간단히 할 수 있는게 큰 장점같아요. 생각보다 많은 시간을 안쓰는 것 같지만, 사실 working hour 중 아무 생각없이 보내는 시간도 많을겁니다. 대여섯시간씩 스스로 집중력을 유지하는 건 쉬운 일이 아니니까요. 25분 집중하겠다고 마음 먹고 하면 집중도 잘되고 평소보다 퍼포먼스도 잘나오는 것 같습니다. 집중력을 늘리기 위한 이런 간단한 장치들을 이용해 보는 것도 좋을 것 같습니다. 30분 휴식이 너무 많이 쉬는 것 같..
바쁘다는 핑계로 블로그를 놓고 살다가,일하기 싫어 이것저것 뒤적대던 중 블로그를 다시 들어오게 되었습니다. 과거에 포스팅했던 글들을 보며 그때와 생각도, 꿈도 많이 변했구나 싶습니다.저는 어느새 대학원 석사과정 3학기차를 마무리하는 단계에 있고,한때 꿈꿨던 스타트업, 안드로이드 개발자 등의 꿈을 뒤로한채 연구자를 향한 발걸음을 한발짝 더 딛으려 합니다. 사실 현실적인 문제도 많이 있고 박사과정을 진학한다는 게 많이 두려운게 사실입니다.하지만 제가 좋아하는, 진짜 하고싶은 일을 하기 위해 한번 더 도전해보고 싶네요.의미를 줄 수 있는 가치있는 문제를 찾고, 그 문제를 논리적으로 푸는 과정들이 힘들지만 재미있고, 가치도 있는 것 같구요.그리고 특히, 데이터를 통해 드러나는 사람을 이해한다는 것은 항상 다른사..
- Total
- Today
- Yesterday
- statistical learning
- linux
- Algorithms
- 리버스엔지니어링
- 자료구조
- 카타르
- Reverse Engineering
- Data Science
- 안드로이드
- operating systems
- 기계학습
- Machine Learning
- 데이터 과학
- 데이터 사이언스
- 알고리즘
- Discrete Mathematics
- reversing
- android
- Data Structure
- 리버싱
- 카타르 음주
- java
- 개발
- 이산수학
- 운영체제
- 대학원
- 자바
- 통계학습
- 리눅스
- 머신러닝
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |