ML Pipeline

1. 데이터 전처리 (Data Preprocessing)

  • EDA (Exploratory Data Analysis): 데이터의 특성을 파악하고 문제점 식별.
  • 문제 처리:
    • 결측치: 데이터 누락 해결.
    • 이상치: 제거, 대체 또는 스케일링으로 처리.
  • 변수 처리:
    • 연속형 변수: 함수 변환, 스케일링, 구간화.
    • 범주형 변수: One-Hot Encoding 등 적절한 변환.

      2. 피처 엔지니어링 (Feature Engineering)

  • 파생 변수 생성:
    • 문제 도메인 지식을 반영한 변수 추가.
    • 단순 합성보다 데이터의 맥락을 고려한 변수 설계.
  • 변수 변환:
    • 함수 변환 (e.g., 로그, 루트 등).
    • 변수 간 상호작용 및 통계 기반 변수 생성.
    • 시간 변수 활용 및 분할.
  • 중요성:
    • 성능: 모델의 예측 성능 향상.
    • 해석: 도메인 지식 기반으로 더 인간 친화적 분석.
    • 메모리: 정보 손실 최소화 및 전처리 속도 향상.

      3. 변수 선택 (Feature Selection)

  • 문제에 유의미한 변수만 선택해 모델 효율성 개선.

    4. 모델 선택 및 학습 (Model Selection)

  • 목적 기반 모델 선택:
    • 문제에 적합한 알고리즘 채택.
  • Hyperparameter Tuning:
    • 하이퍼파라미터 조정을 통한 최적화.
  • 데이터셋 분할:
    • Train/Validation/Test로 데이터 분리.
  • 평가 및 검증:
    • 모델 성능 평가(Evaluation Metrics).

      5. 파생 변수의 중요성

  • 성능: 데이터 관계를 명확히 하여 예측력 증가.
  • 해석 가능성: 도메인 지식을 활용해 분석 결과의 직관적 이해 가능.
  • 효율성: 메모리 사용 감소 및 전처리 과정 최적화.