Feature Selection:
in Til on Til
1. 변수 선택의 필요성
- 문제점:
- 변수가 많을수록 높은 비용 발생.
- 과적합 우려 증가.
- 해석 가능성 저하.
- 목표:
핵심 변수만 선택하여 모델 성능 향상 및 해석 가능성 증대.
2. 변수 선택 방법 분류
변수 선택 방법은 기준에 따라 세 가지로 나뉨:
- Filter Methods:
- 변수 간 통계적 관계 기반으로 선택.
- 특징:
- 모델 학습에 영향을 미치지 않음.
- 빠른 속도와 단순성.
- 예시:
- 분산 낮은 변수 제거:
- Variance Threshold: 분산이 특정 기준보다 낮은 변수 제거.
- 상관계수 높은 변수 제거:
- Correlation Threshold: 상관계수가 높은 변수 중 하나 제거.
- 카이제곱 기반 선택:
- 카이제곱 독립검정(Chi-Square Test):
- 두 범주형 변수 간 관계를 통계적으로 검증.
- 절차:
- 카이제곱 통계량 계산.
- p-value가 유의 수준 이하라면 귀무가설 기각.
- 유의미한 변수 선택.
- Wrapper Methods:
- 카이제곱 독립검정(Chi-Square Test):
- 분산 낮은 변수 제거:
- 모델 성능과 검증 결과 기반으로 선택.
- 특징:
- 변수 간 상호작용 고려.
- 단점: 속도가 느림.
- 예시:
- 순차적 특성 선택:
- Sequential Feature Selection(SFS):
- 변수를 하나씩 추가하며 성능 평가.
- 성능이 더 이상 개선되지 않을 때까지 반복.
- Sequential Feature Selection(SFS):
- 재귀적 특성 제거:
- Recursive Feature Elimination(RFE):
- 모델 성능에 적게 기여하는 변수를 하나씩 제거.
- 성능이 최적화될 때까지 반복.
- Embedded Methods:
- Recursive Feature Elimination(RFE):
- 순차적 특성 선택:
- 모델 훈련 과정에서 중요도를 계산하여 선택.
- 특징:
- Feature Importance와 Regularization 기법 사용.
- 예시:
- Tree-Based Feature Importance:
- 트리 모델에서 변수 중요도를 Gini 계수, Entropy 기반으로 계산.
- 노드 분할에 기여한 변수가 중요도가 높음.
- Regularization 기반:
- 불필요한 변수의 가중치를 0 또는 0에 가깝게 조정하여 제거.
- Lasso(L1): 계수를 정확히 0으로 만들어 변수 제거.
Ridge(L2): 계수를 0에 가깝게 조정.
3. 추가 기법
1. **Target Permutation**:
- Tree-Based Feature Importance:
- 변수와 타겟 간 관계를 평가하기 위해 타겟 값을 무작위로 섞고 변수 중요도를 측정.
- 원래 타겟과의 중요도 차이를 기반으로 유의미한 변수를 선택.
- Adversarial Validation:
- Train과 Validation 데이터셋의 분포가 다를 경우 모델 성능에 악영향.
Adversarial 모델로 train/val 데이터 구별 여부를 평가하여 데이터 분포 차이를 줄이는 데 활용.
4. 결론
- 변수 선택은 단순히 변수 수를 줄이는 것을 넘어, 모델 성능 향상과 해석 가능성 확보를 목표로 함.
- Filter, Wrapper, Embedded 방법론은 각각의 장단점과 상황에 맞게 적절히 선택.
- 고급 기법(Target Permutation, Adversarial Validation)을 활용하여 데이터셋 품질과 신뢰도 향상 가능.