목록머신러닝 (11)
mojo's Blog
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/3zgsa/btr7OplEnCY/FAH4xXJnHfKQMWwJSNj9Vk/img.png)
Cross-Validation ※ Hold-out Method Divide a given data into a training set and a test set. - The training set and the test set should NOT overlap each other. How to choose a good model? - With the training set, build each model. - With the test set, evaluate each model. - Choose the model which shows the best performance with the test set. 훈련용 데이터와 테스트용 데이터는 중복이 허용되면 안된다. 훈련용 데이터를 통해 학습이 완료된 모델을..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/eVDENQ/btr7Qmgy8pU/7bEkK1WlbiFsdKYj215rEk/img.webp)
The Overfitting Problem ※ Polynomial Curver Fitting Which order polynomial does best fit for the data? \(f(x) = w_{0} + w_{1}x + ... + w_{M}x^{M} = \sum_{i=0}^{M} w_{i}^{T}x^{i}\) 다항식은 M차원으로 표현되며 주어진 data를 얼마나 잘 표현하는지, 주어진 data에 적합한지를 찾는 문제가 있다고 할 때, 과연 몇 차원의 다항식을 활용하는 것이 주어진 data를 가장 잘 표현하는 것인지를 해결해야 한다. 또한 차원이 주어진다면, w 값을 또한 어떻게 선택해낼 것인지도 문제이다. We want to minimize the sum-of-squared error func..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/CibB8/btr6RZmFcfK/F6T1HYnfZviMcOTtPXIIr0/img.png)
Multinomial Logistic Regression ※ Multinomial Logistic Regression It is a classification method that generalizes logistic regression to the multiclass problem, i.e. with more than two possible discrete outcomes. -> Also called softmax regression and multinomial logit Example - Which major will a student choose, given a status of the student? - Which blood type does a person have, given the resul..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/SH6Nz/btr49SK26VN/ksAVXxc3WeCVgqDqUbLBN0/img.png)
The Basic Concept of Logistic Regression ※ Problems in Simple Classification Models It is impossible to find a linear classifier in some cases. The loss function is not differential! 위 사진에서 왼쪽같은 경우는 Simple classification 모델을 통해 분류하는 것이 가능하다. 하지만 오른쪽은 어떤 선을 긋더라도 두 개의 클래스를 분류할 수 없는 경우가 존재한다. 이러한 케이스에서 Simple classification 을 통해 문제를 해결할 수 없다. ※ Probabilistic View for a Linear Classifier What if we ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/TG6Pt/btr5ep1QWDX/y27kiRn1Qo8dLnkSAcbfL1/img.png)
※ Estimation in Statistics Use sample statistics to estimate population parameters. -> E.g., Sample means are used to estimate population means. A point estimate of a population parameter is a single value of a statistic. An interval estimate is defined by two numbers, between which a population parameter is said to lie. - \(a < x < b\) is an interval estimate of the population mean \(\mu \). 일반..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dig1uo/btr4FmR7fg9/4jh2vk5FEBfhrJ8ZUbVRfk/img.png)
※ Example: Linear Regression Fitting a linear model with a set of variables \(x_{0}, x_{1}, ..., x_{d}\) \(f(x) = w_{0}x_{0} + w_{1}x_{1} + ... + w_{d}x_{d} \) Age and systolic blood pressure (SBP) 위 사진은 나이와 실제 blood pressure 혈압과의 관계를 표현한 데이터이다. 나이에 따라서 혈압이 오르는지 않오르는지 살펴보는 예제이다. 둘의 관계를 \(f(x)\) 와 같은 선형 함수로 표현이 된다고 가정한다. 이때, x는 age 밖에 존재하지 않으므로 \(f(x) = w_{1}x + w_{0}\) 의 모양으로 볼 수 있다. normal equa..