피드백 - Contest 1 House_price_prediction
요약: 피드백 및 개선 방향 정리
1. 좋았던 점
베이스라인 접근:
베이스라인부터 시작해 재현 가능성을 확인한 점은 올바른 접근.
Feature Selection:
역세권 별 파생 변수 생성 및 Feature Selection 시도가 유효.
노이즈 제거를 위한 고민이 중요하다는 점을 인지.
도메인 지식 활용:
아파트 가격의 특성을 이상치로 간주하지 않고, 데이터 도메인 지식을 고려한 판단 적절.
아파트 가격, 자체가 이상치이기도 하기에
2. 개선 필요점
발표 자료 구성:
다양한 시도와 성과가 발표 자료에 명확히 드러나지 않음.
많은 시도한 듯 하나
접근 방법과 결과를 더 체계적으로 전달할 필요.
실험 설계:
여러 변수를 동시에 변경하는 대신, 하나씩 변경하며 실험(머신러닝 연구의 기본)을 지향.
Validation & Test Set 구성:
모델 성능 순서(경향성)가 Validation과 Test Set에서 일관되도록 구성.
Random Sampling 대신:
최근 데이터 기반(ex: 최근 몇 개월 데이터).
구별 샘플링 등 구조적인 접근.
Validation과 Test Set을 동기화하여 평가 신뢰도를 높이는 것이 중요.
Seed 고정 주의:
Seed를 고정해도 Validation Set 구성 방식에 따라 결과가 달라질 수 있으니 주의.
3. 핵심 질문
도메인 지식과 통계적 기준의 조화:
두 가지를 어떻게 균형 있게 결합하여 Feature Selection과 모델링에 활용할지 고민 필요.
4. 결론
발표 자료는 시도와 성과를 명확히 전달하도록 개선
실험 설계는 하나씩 변경하는 구조로 정리.
Validation과 Test Set 구성은 데이터 특성에 맞게 전략적으로 진행
도메인 지식과 통계적 기준을 조화롭게 활용하는 방법을 탐구.