회귀분석 모델의 진단 기초개념

2019-04-23

.

그림, 실습코드 등 학습자료 출처 : https://datascienceschool.net

1. 개요

회귀분석에 사용된 데이터가 확률론적 선형회귀모형 가정을 제대로 만족하고 있는지를 확인하는 작업이다.

2. 잔차 정규성 체크

예를 들어서 x하고 y의 관계가 아래의 그림과 같다고 치자. 이런경우는 x에 대한 transform이 필요한 상황이다. x와 y간에 잔차정규성이 깨졌기 때문이다. 이게 필요한지 안필요한지 어떻게 확인하냐면 QQ플롯을 그려서 잔차가 정규분포를 이루고 있는지 확인하고, 잔차의 정규성 검정을 해서 p-value도 확인해보면 된다. 아래의 그림인 경우는 qq플롯에도 올바르게 그려지지 않고 잔차정규성 test도 통과하지 못할것이다.

이렇게 테스트를 해서 통과를 못했을때는 x와 y를 그려봤을때 아래처럼 “아 ! x와 y의 관계가 비선형관계구나” 라고 알 수 있어야 한다. 그리고 왜 그럴까, 그러면 데이터를 어떻게 transform해줘야 하냐 이런고민까지 해줘야 한다.

1

그런데 가끔은 아래 그림과 같이 x와 y간에 비선형관계인데 잔차는 정규분포를 따르는 경우가 있다. 이런경우에도 x와 y를 스케터플롯을 그려서 “아 이거 비선형관계구나, 무언가 이상하구나 왜냐하면 x값에 상관없이 잔차의 기댓값이 0이 되야하는데 양수였다가 음수였다가 왔다갔다 하고 있기 때문이다. 이는 x에 대해 무언가 비선형관계가 있구나 그러면 x제곱같은 비선형회귀를 쓰면 얘를 잡아낼 수도 있겠구나” 라고 알 수 있어야 한다.

2

3. 이분산성 체크

x가 커질수록 잔차의 분산폭이 점점 증가하는 케이스가 전형적인 이분산성이다. 이런 경우에는 특정데이터 간 샘플의 잡음 공분산 값이 x와 상관없이 항상 0이 되어야 한다는 가정이 깨지게 된다.

종속변수를 로그 변환한 트랜스로그(trans log) 모형을 사용하면 이분산성 문제가 해결되는 경우도 있다.

4. 자기상관계수 체크

이거는 시계열분석 같은 경우에 잔차가 서로 영향을 주는 케이스가 있다.

5. 결론

이런것들을 보고 모델을 어떤식으로 변형을 시킬지에 대한 힌트를 찾으면 된다.