TIL Machine Learning Algorithms Overview
선형 회귀, KNN, 의사결정 나무, 랜덤 포레스트 등 주요 머신러닝 알고리즘의 핵심 개념, 작동 원리, 장단점 및 개선 방안을 체계적으로 정리
1. 선형 회귀 (Linear Regression)
1.1 기본 개념 및 가정
정의: 독립 변수와 종속 변수 간의 선형 관계 모델링
최소자승법(OLS): 잔차 제곱합 최소화를 통한 최적 직선 도출
주요 가정: 선형성, 독립성, 등분산성, 잔차의 정규성
1.2 모델 평가 및 해석
잔차 분석: 등분산성(잔차 vs 적합값), 정규성(Q-Q 플롯), 자기상관(Durbin-Watson) 확인
다중공선성: 상관계수 행렬, VIF(분산팽창계수)를 통한 진단
모델 해석: 회귀 계수(변수 영향), 결정계수(R-squared, 설명력), 조정된 결정계수(Adjusted R-squared)
1.3 장단점 및 개선
장점: 해석 용이성, 계산 효율성
단점: 선형 관계 가정, 이상치 민감, 다중공선성 문제
개선: 변수 변환, 변수 선택, 정규화/표준화
2. K-최근접 이웃 (K-Nearest Neighbors, KNN)
2.1 정의 및 특징
정의: K개의 가장 가까운 이웃 데이터를 기반으로 예측하는 비모수적 알고리즘
특징: 사례 기반 학습, 거리 기반 모델, 분류/회귀 모두 적용 가능
거리 측정: 유클리드 거리, 맨해튼 거리 등 활용
2.2 장단점 및 고려 사항
장점: 단순성, 직관성, 모델 가정 불필요
단점: 높은 계산 복잡도(대용량 데이터), 스케일 민감도, 차원의 저주
주요 고려 사항: K 값 선택(과적합/과소적합), 거리 측정 방법, 데이터 전처리(스케일링, 결측치)
2.3 개선 방법
가중치 부여: 이웃 데이터에 가중치 적용
차원 축소: PCA 등 기법 활용
효율적인 데이터 구조: KD-트리, Ball-트리 등을 통한 검색 시간 단축
3. 의사결정 나무 (Decision Tree)
3.1 정의 및 작동 원리
정의: 데이터 특성 기반 의사결정 규칙을 트리 형태로 생성하여 분류/회귀 수행
작동 원리: 분할 기준 설정, 재귀적 분할, 종료 조건
분할 기준: 불순도(지니 지수, 엔트로피), 정보 이득
3.2 주요 하이퍼파라미터
max_depth: 트리의 최대 깊이 제한
min_samples_split: 노드 분할을 위한 최소 샘플 수
min_samples_leaf: 리프 노드의 최소 샘플 수
max_features: 분할에 사용할 최대 특성 수
3.3 장단점 및 개선
장점: 해석 용이성, 전처리 불필요, 다양한 데이터 처리
단점: 과적합 위험, 불안정성, 일반화 어려움
개선: 가지치기(Pruning), 앙상블 기법(랜덤 포레스트, 그래디언트 부스팅), 균형 잡힌 데이터 사용
4. 랜덤 포레스트 (Random Forest)
4.1 정의 및 작동 원리
정의: 배깅과 특성 무작위 선택을 결합한 앙상블 학습 방법
작동 원리: 부트스트랩 샘플링, 무작위 특성 선택, 예측 통합(분류: 투표, 회귀: 평균)
구성 요소: 여러 개의 결정 트리
4.2 장단점 및 하이퍼파라미터
장점: 높은 정확도, 과적합 방지, 특성 중요도 제공
단점: 높은 계산 비용, 해석 어려움
주요 하이퍼파라미터: n_estimators(트리 수), max_features(특성 수), max_depth 등
4.3 개선 방법
하이퍼파라미터 튜닝: 교차 검증, 그리드 서치
병렬 처리: 트리 생성 과정 속도 향상
특성 선택: 중요도 낮은 특성 제거를 통한 효율성 향상