정규화 선형회귀 기초개념

2019-04-28

\[\ w = \text{arg}\min_w \left( \sum_{i=1}^N e_i^2 + \lambda \sum_{j=1}^M w_j^2 \right)\]

λ 는 기존의 잔차 제곱합과 추가적 제약 조건의 비중을 조절하기 위한 하이퍼 모수(hyper parameter)이다. λ 가 크면 정규화 정도가 커지고 가중치의 값들이 작아진다. λ 가 작아지면 정규화 정도가 작아지며 λ 가 0이 되면 일반적인 선형 회귀모형이 된다.

\[\ w = \text{arg}\min_w \left( \sum_{i=1}^N e_i^2 + \lambda \sum_{j=1}^M | w_j | \right)\]

\[\ w = \text{arg}\min_w \left( \sum_{i=1}^N e_i^2 + \lambda_1 \sum_{j=1}^M | w_j | + \lambda_2 \sum_{j=1}^M w_j^2 \right)\]

\(\ \lambda_1\), \(\ \lambda_2\) 두개의 하이퍼 모수를 갖는다.

statsmodels 패키지는 OLS 선형 회귀모형 클래스의 ‘fit_regularized’ 메서드를 사용하여 Elastic Net 모형 계수를 구할 수 있다. 하이퍼 모수는 다음과 같이 모수 alpha 와 L1_wt 로 정의된다.

\[\ 0.5 \times \text{RSS}/N + \text{alpha} \times \big( 0.5 \times (1-\text{L1_wt})\sum w_i^2 + \text{L1_wt} \sum |w_i| \big)\]

여기서 모수 L1_wt가 0 이면 순수 Ridge 모형이 된다.

반대로 모수 L1_wt가 1 이면 순수 Lasso 모형이 된다

모수 L1_wt가 0과 1 사이이면 Elastic Net 모형이다.

Ridge 모형은 가중치 계수를 한꺼번에 축소시키는데 반해 Lasso 모형은 일부 가중치 계수가 먼저 0으로 수렴하는 특성이 있다.

정규화에 사용되는 하이퍼 모수 등을 바꾸면 모형의 검증 성능이 달라진다. 따라서 최적의 성능을 가져올 수 있는 정규화 하이퍼 모수를 선택하는 과정이 필요하다. 이러한 과정을 최적 정규화라고 한다.

다항회귀에서 차수가 감소하면 모형의 제약조건이 더 강화되므로 정규화 가중치가 커지는 것과 같다. 반대로 차수가 증가하면 모형의 제약조건이 감소하므로 정규화 가중치가 작아지는 것과 같다. 따라서 다항회귀에서 최적의 차수를 결정하는 문제는 최적 정규화에 해당한다.