통계적 가설검정과 p-value 기초개념

2021-06-22

.

Data_Preprocessing_TIL(20210622)

[학습자료]

패스트캠퍼스 온라인 강의 “파이썬을 활용한 데이터 전처리 Level UP 올인원 패키지 Online.” 를 공부하고 정리한 내용입니다.

URL : https://fastcampus.co.kr/data_online_preprocess

[학습내용]

  • 가설검정은 일반적으로 통계적 가설검정이라고 한다.

  • 통계적 가설검정 개요

1) 보유한 샘플을 갖고 모집단의 특성에 대한 가설을 통계적으로 유의성을 검정하는 일련의 과정임

가지고 있는 데이터를 바탕으로 모집단이 어떻게 생겼는지를 알고 싶은 것이다. 일반적으로는 가지고 있는 데이터 만으로는 모집단을 정확히 알 수 없는 경우가 일반적인 케이스임. 예를 들어서 대한민국 남성의 키의 분포를 알고 싶다고 할때 대한민국 남성들의 모든 키 데이터를 갖고 있어야만 완벽한 모집단의 분포를 알 수 있는 것이다. 하지만 이는 비현실적이다. 따라서 수집한 데이터를 가지고, 다시말해서 모집단의 부분집합을 가지고 모집단의 특성이 어떤것인지를 추정하는 것이다.

수집한 데이터는 매우 특별한 경우를 제외하고는 모두 샘플이며, 모집단은 정확히 알 수 없는 경우가 대부분임

통계적 유의성 : 어떤 실험 결과 (데이터)가 확률적으로 봐서 단순히 우연이 아니라고 판단될 정도로 의미가 있음. 단순히 우연히라고 할 확률이 낮다는 의미.

2) 통계적 가설검정 프로세스는 아래와 같이 5단계로 구성됨

step 1) 영 가설과 대립 가설 설정

가설을 수립하는데 영가설과 대립가설을 구분해서 수립한다.

step 2) 검정 통계량 설정

가설을 검정하기 위한 검정통계량을 설정

step 3) 기각역 설정

이 가설이 성립하는지 성립하지 않는지 판단하는 기각역을 설정

step 4) 검정통계량 계산

설정한 검정통계량을 계산

step 5) 의사결정

계산한 검정통계량을 바탕으로 이 가설이 유의한지 유의하지 않은지 의사결정을 진행함

  • 영가설과 대립가설

영 가설 (또는 귀무가설, null hypothesis)와 대립가설 (alternative hypothesis)로 구분하여, 가설을 수립해야함

ex) 영가설 : 무죄, 대립가설 : 유죄

통계적인 가설검정에서는 죄가 없다는 것을 반박하기 위해 통계적인 증거를 찾을 것이다. 그래서 죄가 없다고 하기에는 유죄증거가 충분하다고 하면 영 가설을 기각한다고 하고, 죄가 있다는 대립가설을 참으로 보는 것이다.

아래의 표를 예를 들어보자. H0은 영가설이고, H1은 대립가설인 것이다. 일반적으로 영가설은 기각하기 전까지는 참으로 본다. 대한민국 남성의 평균키가 173이라는게 영가설이면 대립가설은 173을 초과하거나 173 미만이면 되는 것이다. 173 보다 작거나 크면 되기 때문에 이를 양측검정이라고 한다.

다른 예시로는 성인 남성의 키는 성인 여성의 키와 같다 라는 가설이 있는데 이거는 영가설이고, 성인 남성의 키는 성인 여성의 키보다 크다 라는게 대립가설로 있다. 성인남성이 성인 여성보다 크다는 것만 가설로 잡고 있기 때문에 이를 단측검정이라고 한다.

1

  • 오류의 구분

가설검정에서 발생하는 오류는 참을 거짓이라고 하는 제1종 오류와 거짓을 참이라고 하는 제2종 오류로 구분된다.

제1종오류 : 영가설이 실제로 참인데도 불구하고 영가설이 가짜다라고 판단하는 오류

제2종오류 : 영가설이 실제로 거짓인데도 불구하고 영가설이 참이라고 판단하는 오류

  • 유의확률, p-value

영가설이 맞다고 가정할때 얻은 결과와 다른결과가 관측될 확률로, 그 값이 작을수록 영가설을 기각할 근거가 됨

영가설이 맞다고 가정하고 실제 데이터를 관측을 했을때 그 데이터가 영가설이 참일때 나올 수 있는 데이터가 아니라고 해보자. 무슨말이냐면 예를 들어서 대한민국 남성 평균키가 173이라는게 영가설이라고 하고 이거를 참이라고 가정을 했는데 실제 데이터를 수집해서 보니까 대한민국 남성의 평균키가 190이었다. 그러면 영가설이 참일때면 평균이 190이라는게 나오는게 매우 어려울 것이다. 랜덤으로 대한민국 남성들의 데이터를 샘플링해서 가져와도 평균이 190이 나오기는 사실상 매우 어려울 것이다. 이렇다고 할때 영가설이 173이라는게 거짓이구나 라고 판단을 할 수 있는 것이다. 반대로 영가설이 173이라고 하고 데이터를 관측해보니까 172, 174, 175, 171 이런식으로 173 근처에 있다고 치자 그러면 영가설을 기각할만한 근거가 되지 않는 것이다. 그러면 p-value도 상당히 높을 것이다.

일반적으로 p-value가 0.05 혹은 0.01 미만이면 영가설을 기각한다. 보통은 0.05를 기준으로 두고 0.05 미만이면 영가설이 참이 아니라고 판단할 수 있고, 반대로 0.05 이상이면 영가설을 기각할만한 근거가 되지 않는다고 판단한다.

2

주의해야할점은 영가설을 기각한다고 해서 반드시 대립가설이 참인것은 아니다. 특히 단측검정일때 그런데 예를 들어서 성인 남성의 키는 성인 여성의 키와 같다 라는 영가설을 기각했다고 하자. 그러면 자연스럽게 성인 남성의 키는 성인 여성의 키보다 크다 라는 대립가설이 참이라고 단정할 수 없는 것이다. 여기서 확실한 것은 성인 남성의 키와 성인 여성의 키가 다를 뿐이지 누가 더 크고 작은지는 새로운 검정을 해야한다는 것이다.

  • 유의확률, p-value 예시 1

영가설 : 대한민국 성인 남성의 키는 160일것이다.

대립가설 : 대한민국 성인 남성의 키는 160 이상일 것이다.

관측한 100명의 대한민국 남성의 키 : 평균 175, 표준편차 1

만약에 영가설이 맞다고 하면 대부분의 남성의 키가 160 주변일것이다. 그런데 수집한 데이터를 보니까 175 주변에 몰려있다. 그러면 영가설이 160일때 평균이 175가 나오는게 아예 불가능한것은 아니지만 상식적으로 판단했을때 남성의 키를 160이라고 판단할 수는 없는 것이다. 따라서 이때 영가설을 기각할 수 있는 것이다.

3

  • 유의확률, p-value 예시 2

영가설 : 대한민국 성인 남성의 키는 여성의 키와 같을 것이다.

대립가설 : 대한민국 성인 남성의 키는 여성의 키보다 작다.

아래 그림에서 볼 수 있듯이 영가설이 맞다면 여성의 키분포와 남성의 키분포가 상당부분 겹쳐야 할 것이다. 두 분포의 겹치는 부분이 적으면 적을수록 이 두분포는 차이가 있다고 볼 수 있다. 다시말해서 겹치는 크기가 p-value일 것이다. 또는 두개의 분포를 비교하는 것이 아니라 남성의 키에서 여성의 키를 뺀 것을 하나의 분포로 해서 판단할 수도 있다. 만약에 영가설이 실제 참이라고 한다면 0을 근처로해서 데이터들이 몰려 있을 것이다. 반면에 우측에 있는 부분의 영역이 매우 작을 것이다. 만약에 우측에 있는 영역이 상당히 크다고 한다면 영가설을 기각하는 근거가 되는 것이다.

4