데이터 전처리 요약 및 정리
in Til on Til
1. 데이터 전처리 개요
- 목적: 데이터 품질 개선 및 분석/모델링에 적합한 형태로 변환.
주요 작업: 결측치 처리, 이상치 처리, 연속형/범주형 데이터 변환.
2. 결측치 처리
- 삭제
- 행 삭제: 결측치가 많거나 분석에 영향이 적은 경우.
- 열 삭제: 열 전체에 결측치가 많고, 중요도가 낮은 경우.
- 대체
- 통계값 대체: 평균, 중앙값, 최빈값 등.
회귀 대체: 회귀 모델을 이용하여 결측값 예측.
3. 이상치 처리
- 삭제: 이상치로 인해 분석이 왜곡되는 경우 제거.
- 대체: 이상치를 대체값으로 변경 (중앙값, 평균 등).
변환: 이상치를 정규화하거나 클리핑하여 다룸.
4. 연속형 데이터 처리
- 함수 변환
- 비대칭 분포를 정규 분포에 가깝게 변환.
- 방법:
- 로그 변환
- 제곱근 변환
- Box-Cox 변환
- 스케일링
- Min-Max 스케일링: 데이터 값을 0~1 범위로 변환.
- 표준화 (Standardization): 평균 0, 표준편차 1로 변환.
- Robust 스케일링: 중앙값과 IQR 활용 (이상치에 강건).
- 구간화
- 연속형 데이터를 구간으로 나누어 범주형 데이터로 변환.
활용: 데이터 클리닝, 파생 변수 생성.
5. 범주형 데이터 처리
- 인코딩
- 원 핫 인코딩: 범주를 이진 벡터로 변환.
- 레이블 인코딩: 각 범주를 정수로 변환.
- 주의: 범주의 순서가 없는 경우, 순서로 잘못 인식 가능.
- 빈도 인코딩: 범주의 빈도를 수치 값으로 변환.
- 타겟 인코딩: 각 범주에 타겟 변수의 평균값 또는 가중치를 부여.
변환: 범주 간 의미를 반영해 수치적 의미를 부여 (예: 순위).
최종 요약
| 작업 단계 | 처리 방식 | | — | — | | 결측치 | 삭제 (행/열), 대체 (통계값, 회귀) | | 이상치 | 삭제, 대체, 변환 | | 연속형 데이터 | 함수 변환 (로그, 제곱근), 스케일링 (Min-Max, 표준화, Robust), 구간화 | | 범주형 데이터 | 원 핫 인코딩, 레이블 인코딩 (주의: 순서 문제), 빈도/타겟 인코딩, 수치적 의미 부여 |
- 주의: 범주의 순서가 없는 경우, 순서로 잘못 인식 가능.