머신러닝 데이터 전처리시 기초통계분석 활용방법

2021-06-21

데이터전처리

Data_Preprocessing_TIL(20210621)

[학습자료]

패스트캠퍼스 온라인 강의 “파이썬을 활용한 데이터 전처리 Level UP 올인원 패키지 Online.” 를 공부하고 정리한 내용입니다.

URL : https://fastcampus.co.kr/data_online_preprocess

[학습내용]

머신러닝에서 기초통계분석 결과는 각 변수를 이해아고, 특별한 분포 문제가 없는지 확인하기 위한 판단근거로 활용된다. 다시말해서 변수들을 새로 정의하거나 변환할때의 근거로 활용할 수 있다.

1) 평균과 범위

변수별로 평균과 범위를 구해서 피쳐별로 스케일 차이를 확인할 수 있다. 예를 들어서 스케일이 큰 변수는 의미가 없는 피쳐임에도 불구하고 모델링 전체적으로 영향을 주고, 반면에 스케일이 작은 변수는 의미가 큰 피쳐임에도 불구하고 스케일이 작기 때문에 모델링 전체적으로 영향을 주지 않을 수 있다. 따라서 피쳐별로 스케일 차이가 있으면 변수를 스케일링을 해서 피쳐간에 스케일 차이를 줄여주도록 해야한다.

2) 사분위 범위

사분위 범위를 이용하면 iqr rule로 이상치를 제거하는 기준으로 활용할 수 있다.

3) 왜도

왜도가 큰경우에는 한 변수가 특정값에 치우쳤다고 판단할 수 있기 때문에 왜도의 절대값이 1.5보다 큰 변수일 경우에는 하나의 값으로 치우쳤다고 볼 수 있고, 그런 변수로 모델을 만들면 일반화된 모델을 만들기 어렵다. 따라서 이런 변수의 치우침을 제거해야한다.

4) 왜도와 첨도

왜도와 첨도가 동시에 높은 경우, 즉 하나의 값에 심하게 치우치고, 몰려있는 경우에는 변수 자체를 정규화하는 방법이 있다. 그래서 정규분포까지는 될 수 없겠지만 정규분포에 가깝게 만들어줘야 한다.

 Exploratory Data Analysis 란 AWS EMR 노드유형별 기본개념 