정규화 선형회귀 기초개념

2019-04-28

.

그림, 실습코드 등 학습자료 출처 : https://datascienceschool.net

  • 정규화 선형회귀 모형 개요

1

  • Ridge회귀 모형 : 가중치들의 제곱합을 최소화하는 것을 추가적인 제약 조건으로 한다.
\[\ w = \text{arg}\min_w \left( \sum_{i=1}^N e_i^2 + \lambda \sum_{j=1}^M w_j^2 \right)\]

λ 는 기존의 잔차 제곱합과 추가적 제약 조건의 비중을 조절하기 위한 하이퍼 모수(hyper parameter)이다. λ 가 크면 정규화 정도가 커지고 가중치의 값들이 작아진다. λ 가 작아지면 정규화 정도가 작아지며 λ 가 0이 되면 일반적인 선형 회귀모형이 된다.

  • Lasso회귀 모형 : 가중치의 절대값의 합을 최소화하는 것을 추가적인 제약 조건으로 한다.
\[\ w = \text{arg}\min_w \left( \sum_{i=1}^N e_i^2 + \lambda \sum_{j=1}^M | w_j | \right)\]
  • Elastic Net 회귀모형 : 가중치의 절대값의 합과 제곱합을 동시에 제약 조건으로 가지는 모형이다.
\[\ w = \text{arg}\min_w \left( \sum_{i=1}^N e_i^2 + \lambda_1 \sum_{j=1}^M | w_j | + \lambda_2 \sum_{j=1}^M w_j^2 \right)\]

\(\ \lambda_1\), \(\ \lambda_2\) 두개의 하이퍼 모수를 갖는다.

  • statesmodels의 정규화 회귀모형

statsmodels 패키지는 OLS 선형 회귀모형 클래스의 ‘fit_regularized’ 메서드를 사용하여 Elastic Net 모형 계수를 구할 수 있다. 하이퍼 모수는 다음과 같이 모수 alpha 와 L1_wt 로 정의된다.

\[\ 0.5 \times \text{RSS}/N + \text{alpha} \times \big( 0.5 \times (1-\text{L1_wt})\sum w_i^2 + \text{L1_wt} \sum |w_i| \big)\]

여기서 모수 L1_wt가 0 이면 순수 Ridge 모형이 된다.

반대로 모수 L1_wt가 1 이면 순수 Lasso 모형이 된다

모수 L1_wt가 0과 1 사이이면 Elastic Net 모형이다.

  • Ridge 모형과 Lasso 모형의 차이

Ridge 모형은 가중치 계수를 한꺼번에 축소시키는데 반해 Lasso 모형은 일부 가중치 계수가 먼저 0으로 수렴하는 특성이 있다.

  • 최적 정규화

정규화에 사용되는 하이퍼 모수 등을 바꾸면 모형의 검증 성능이 달라진다. 따라서 최적의 성능을 가져올 수 있는 정규화 하이퍼 모수를 선택하는 과정이 필요하다. 이러한 과정을 최적 정규화라고 한다.

  • 다항회귀의 차수 결정

다항회귀에서 차수가 감소하면 모형의 제약조건이 더 강화되므로 정규화 가중치가 커지는 것과 같다. 반대로 차수가 증가하면 모형의 제약조건이 감소하므로 정규화 가중치가 작아지는 것과 같다. 따라서 다항회귀에서 최적의 차수를 결정하는 문제는 최적 정규화에 해당한다.