목록머신러닝 (11)
mojo's Blog
Cross-Validation ※ Hold-out Method Divide a given data into a training set and a test set. - The training set and the test set should NOT overlap each other. How to choose a good model? - With the training set, build each model. - With the test set, evaluate each model. - Choose the model which shows the best performance with the test set. 훈련용 데이터와 테스트용 데이터는 중복이 허용되면 안된다. 훈련용 데이터를 통해 학습이 완료된 모델을..
The Overfitting Problem ※ Polynomial Curver Fitting Which order polynomial does best fit for the data? \(f(x) = w_{0} + w_{1}x + ... + w_{M}x^{M} = \sum_{i=0}^{M} w_{i}^{T}x^{i}\) 다항식은 M차원으로 표현되며 주어진 data를 얼마나 잘 표현하는지, 주어진 data에 적합한지를 찾는 문제가 있다고 할 때, 과연 몇 차원의 다항식을 활용하는 것이 주어진 data를 가장 잘 표현하는 것인지를 해결해야 한다. 또한 차원이 주어진다면, w 값을 또한 어떻게 선택해낼 것인지도 문제이다. We want to minimize the sum-of-squared error func..
Multinomial Logistic Regression ※ Multinomial Logistic Regression It is a classification method that generalizes logistic regression to the multiclass problem, i.e. with more than two possible discrete outcomes. -> Also called softmax regression and multinomial logit Example - Which major will a student choose, given a status of the student? - Which blood type does a person have, given the resul..
The Basic Concept of Logistic Regression ※ Problems in Simple Classification Models It is impossible to find a linear classifier in some cases. The loss function is not differential! 위 사진에서 왼쪽같은 경우는 Simple classification 모델을 통해 분류하는 것이 가능하다. 하지만 오른쪽은 어떤 선을 긋더라도 두 개의 클래스를 분류할 수 없는 경우가 존재한다. 이러한 케이스에서 Simple classification 을 통해 문제를 해결할 수 없다. ※ Probabilistic View for a Linear Classifier What if we ..
※ Estimation in Statistics Use sample statistics to estimate population parameters. -> E.g., Sample means are used to estimate population means. A point estimate of a population parameter is a single value of a statistic. An interval estimate is defined by two numbers, between which a population parameter is said to lie. - \(a < x < b\) is an interval estimate of the population mean \(\mu \). 일반..
※ Example: Linear Regression Fitting a linear model with a set of variables \(x_{0}, x_{1}, ..., x_{d}\) \(f(x) = w_{0}x_{0} + w_{1}x_{1} + ... + w_{d}x_{d} \) Age and systolic blood pressure (SBP) 위 사진은 나이와 실제 blood pressure 혈압과의 관계를 표현한 데이터이다. 나이에 따라서 혈압이 오르는지 않오르는지 살펴보는 예제이다. 둘의 관계를 \(f(x)\) 와 같은 선형 함수로 표현이 된다고 가정한다. 이때, x는 age 밖에 존재하지 않으므로 \(f(x) = w_{1}x + w_{0}\) 의 모양으로 볼 수 있다. normal equa..