ML Pipeline

16 Nov 2024 in Til on Til

1. 데이터 전처리 (Data Preprocessing)

EDA (Exploratory Data Analysis): 데이터의 특성을 파악하고 문제점 식별.
문제 처리:
- 결측치: 데이터 누락 해결.
- 이상치: 제거, 대체 또는 스케일링으로 처리.
변수 처리:
- 연속형 변수: 함수 변환, 스케일링, 구간화.
- 범주형 변수: One-Hot Encoding 등 적절한 변환.
  2. 피처 엔지니어링 (Feature Engineering)
파생 변수 생성:
- 문제 도메인 지식을 반영한 변수 추가.
- 단순 합성보다 데이터의 맥락을 고려한 변수 설계.
변수 변환:
- 함수 변환 (e.g., 로그, 루트 등).
- 변수 간 상호작용 및 통계 기반 변수 생성.
- 시간 변수 활용 및 분할.
중요성:
- 성능: 모델의 예측 성능 향상.
- 해석: 도메인 지식 기반으로 더 인간 친화적 분석.
- 메모리: 정보 손실 최소화 및 전처리 속도 향상.
  3. 변수 선택 (Feature Selection)
문제에 유의미한 변수만 선택해 모델 효율성 개선.
4. 모델 선택 및 학습 (Model Selection)
목적 기반 모델 선택:
- 문제에 적합한 알고리즘 채택.
Hyperparameter Tuning:
- 하이퍼파라미터 조정을 통한 최적화.
데이터셋 분할:
- Train/Validation/Test로 데이터 분리.
평가 및 검증:
- 모델 성능 평가(Evaluation Metrics).
  5. 파생 변수의 중요성
성능: 데이터 관계를 명확히 하여 예측력 증가.
해석 가능성: 도메인 지식을 활용해 분석 결과의 직관적 이해 가능.
효율성: 메모리 사용 감소 및 전처리 과정 최적화.

ML Pipeline

1. 데이터 전처리 (Data Preprocessing)

범주형 변수: One-Hot Encoding 등 적절한 변환.

2. 피처 엔지니어링 (Feature Engineering)

메모리: 정보 손실 최소화 및 전처리 속도 향상.

3. 변수 선택 (Feature Selection)

문제에 유의미한 변수만 선택해 모델 효율성 개선.

4. 모델 선택 및 학습 (Model Selection)

모델 성능 평가(Evaluation Metrics).

5. 파생 변수의 중요성

Jungjoon Park

Error

1. 데이터 전처리 (Data Preprocessing)

범주형 변수: One-Hot Encoding 등 적절한 변환.

2. 피처 엔지니어링 (Feature Engineering)

메모리: 정보 손실 최소화 및 전처리 속도 향상.

3. 변수 선택 (Feature Selection)

문제에 유의미한 변수만 선택해 모델 효율성 개선.

4. 모델 선택 및 학습 (Model Selection)

모델 성능 평가(Evaluation Metrics).

5. 파생 변수의 중요성

Templates (for web app):

Error