ML Pipeline
in Til on Til
1. 데이터 전처리 (Data Preprocessing)
- EDA (Exploratory Data Analysis): 데이터의 특성을 파악하고 문제점 식별.
- 문제 처리:
- 결측치: 데이터 누락 해결.
- 이상치: 제거, 대체 또는 스케일링으로 처리.
- 변수 처리:
- 연속형 변수: 함수 변환, 스케일링, 구간화.
범주형 변수: One-Hot Encoding 등 적절한 변환.
2. 피처 엔지니어링 (Feature Engineering)
- 파생 변수 생성:
- 문제 도메인 지식을 반영한 변수 추가.
- 단순 합성보다 데이터의 맥락을 고려한 변수 설계.
- 변수 변환:
- 함수 변환 (e.g., 로그, 루트 등).
- 변수 간 상호작용 및 통계 기반 변수 생성.
- 시간 변수 활용 및 분할.
- 중요성:
- 성능: 모델의 예측 성능 향상.
- 해석: 도메인 지식 기반으로 더 인간 친화적 분석.
메모리: 정보 손실 최소화 및 전처리 속도 향상.
3. 변수 선택 (Feature Selection)
문제에 유의미한 변수만 선택해 모델 효율성 개선.
4. 모델 선택 및 학습 (Model Selection)
- 목적 기반 모델 선택:
- 문제에 적합한 알고리즘 채택.
- Hyperparameter Tuning:
- 하이퍼파라미터 조정을 통한 최적화.
- 데이터셋 분할:
- Train/Validation/Test로 데이터 분리.
- 평가 및 검증:
모델 성능 평가(Evaluation Metrics).
5. 파생 변수의 중요성
- 성능: 데이터 관계를 명확히 하여 예측력 증가.
- 해석 가능성: 도메인 지식을 활용해 분석 결과의 직관적 이해 가능.
- 효율성: 메모리 사용 감소 및 전처리 과정 최적화.