처음엔 수월했는데 한 달 쯤 지나니 머리가 살짝 아파오기 시작한다.
정리가 필요해!
Machine Learning
- Supervised Learning: knows target variable
- Unsupervised Learning: don't know (usually involves clustering data)
Supervised Learning Algorithm: 한 마디로 '예측 모델(hypothesis)'을 만드는 알고리즘
1. 모델 모양 정하기:
linear regression, polynomial regression(quadratic regression, cubic regression, etc), logarithmic regression, logistic regression 등 등 여러가지 모델 중에서 데이터 성격에 맞는 것으로다가 택일!
target variable이 continuous하고 포물선으로 분포한다 -> quadratic regression
target variable이 discrete하다 -> logistic regression (계단 모양이라 discrete value를 설명하기에 적합)
2. 어떤 모델을 만들지 구상했다면, 모델을 실제로 만들어야지!
- Gradient Descent으로 만들기: 모델에 들어갈 파라미터를 임의로 하나 선정하고 조금씩 그 파라미터를 수정하여 마침내 최적의 파라미터를 찾아내는 방법 (feature가 많아지면 유리함)
- Normal Function으로 만들기: 매트릭스로 한방에 구하는 방법 (feature가 많아지면 시간이 오래 걸림)
모델 만들 때, training data에 overfitting되는 문제(training data를 완벽하게 설명하지만 너무 복잡해져서 new data를 제대로 예측하지 못하게 되는 문제)를 피하기 위해서 regularization 필요! -> 각 feature의 영향력을 축소하라! -> how? cost function에 lambda * parameter 값을 추가! (*요 부분은 직관적인 이해를 위해 좀 더 공부가 필요! right now! 쫌 있다 강의 듣고 정리할거임)
3. 이제 모델이 완성되었다. 새로운 데이터를 모델에 넣고 target variable을 예측해보자!
머신러닝이란 대략 이러한 것이다. (것인 것 같다...)
지금까지는 그냥 통계인 것 같다. (비록 통계를 제대로 배워본 적은 없지만, 지금까지의 내용은 inferential statistics 의 범주에 들어가지 않나 싶다 *정확하지 않음)
지금까지는 그냥 통계인 것 같다. (비록 통계를 제대로 배워본 적은 없지만, 지금까지의 내용은 inferential statistics 의 범주에 들어가지 않나 싶다 *정확하지 않음)
댓글 없음:
댓글 쓰기