피드백 - Contest 1 House_price_prediction

요약: 피드백 및 개선 방향 정리


1. 좋았던 점

  • 베이스라인 접근:

  • 베이스라인부터 시작해 재현 가능성을 확인한 점은 올바른 접근.

  • Feature Selection:

  • 역세권 별 파생 변수 생성 및 Feature Selection 시도가 유효.

  • 노이즈 제거를 위한 고민이 중요하다는 점을 인지.

  • 도메인 지식 활용:

  • 아파트 가격의 특성을 이상치로 간주하지 않고, 데이터 도메인 지식을 고려한 판단 적절.

  • 아파트 가격, 자체가 이상치이기도 하기에


2. 개선 필요점

  • 발표 자료 구성:

  • 다양한 시도와 성과가 발표 자료에 명확히 드러나지 않음.

  • 많은 시도한 듯 하나

  • 접근 방법과 결과를 더 체계적으로 전달할 필요.

  • 실험 설계:

  • 여러 변수를 동시에 변경하는 대신, 하나씩 변경하며 실험(머신러닝 연구의 기본)을 지향.

  • Validation & Test Set 구성:

  • 모델 성능 순서(경향성)가 Validation과 Test Set에서 일관되도록 구성.

  • Random Sampling 대신:

  • 최근 데이터 기반(ex: 최근 몇 개월 데이터).

  • 구별 샘플링 등 구조적인 접근.

  • Validation과 Test Set을 동기화하여 평가 신뢰도를 높이는 것이 중요.

  • Seed 고정 주의:

  • Seed를 고정해도 Validation Set 구성 방식에 따라 결과가 달라질 수 있으니 주의.


3. 핵심 질문

  • 도메인 지식과 통계적 기준의 조화:

  • 두 가지를 어떻게 균형 있게 결합하여 Feature Selection과 모델링에 활용할지 고민 필요.


4. 결론

  • 발표 자료는 시도와 성과를 명확히 전달하도록 개선

  • 실험 설계는 하나씩 변경하는 구조로 정리.

  • Validation과 Test Set 구성은 데이터 특성에 맞게 전략적으로 진행

  • 도메인 지식과 통계적 기준을 조화롭게 활용하는 방법을 탐구.