CV Contest - 발표 피드백 및 개선 방향 from 송원호 멘토

02 Jan 2025 in Til on Til

요약

1. Train, Validation, Test Metric의 접근

문제점: Metric에 과도한 집착은 데이터 특성과 결과를 깊이 이해하는 데 방해가 됨.
해결책: 정량적 평가 외에도 데이터의 정성적 관찰 및 validation set 구성의 중요성을 강조.

2. EDA (Exploratory Data Analysis)

주요 분석 요소:
데이터 시각적 특성(width, height) 및 클래스 불균형 확인.
데이터 샘플 직접 관찰 및 기본 베이스라인 코드 작성.

3. 적절한 의사결정

Validation set을 실제 test set과 유사하게 구성해 예측 정확도 향상.
Test set 특성을 반영한 offline augmentation 전략 설계.

4. Mix-Up Image 실험

성능 저하 관찰 시 전략 수정 필요.
데이터 조건에 따른 Mix-Up 사용 여부 결정.

5. 팀 협업 및 발표 개선

기록 및 공유: 실험 기록 일관성 및 코드 공유 활성화.
Iterative 접근: 문제 정의 → 실험 → 개선 반복.

6. Augraphy 및 효율 개선

CPU 병목 현상 해결을 위해 offline augmentation 사용 권장.

7. 대회 일반

데이터 분석 및 모델링 절차

데이터 검증 및 베이스라인 작성:
데이터 원본 확인 후 augmentation 전략 활용.
Validation과 리더보드 correlation 분석을 통해 개선.
이미지 처리 특화:
Class별 약점을 파악해 rotate, mixup 등의 augmentation 추가.
가설 → 실험 → 데이터/모델 재점검 과정 반복.

대회 설계

현업 연계성: 문서 이미지 데이터 디지털화 트렌드를 반영한 문제 설계.
금융, 의료, IT 등 다양한 산업군에서 활용 가능.

8. 문제 해결 프로세스

문제 정의 및 해결:
Evaluation metric이 문제 성과를 정확히 반영하는지 검토.
역량 강화:
연구 및 현업에서 문제 정의와 해결 중심의 사고를 강조.

9. 기타 참고 사항

데이터 EDA

Train/Test 분포 차이 시각화.
EasyOCR, PaddleOCR로 텍스트 영역 검출 및 처리.

모델 및 실험

Optimizer: AdamW, SGD 비교.
Scheduler: Cosine, Sequential 비교.
Loss Function: Cross Entropy, Focal Loss 실험.
Batch/Image Size: 다양한 설정으로 실험.
Ensemble: Temperature Scaling 등 방법 비교.

발표 개선

실험 목적과 방법을 명확히 전달.
간결하고 명확한 프레젠테이션 준비.

팀 발표

1. Train, Validation, Test Metric에 대한 집착

지양: Metric에 과도하게 집착하지 않기. 숫자로 모든 문제를 설명하려는 경향에서 벗어나, 실질적인 데이터 특성과 결과를 더 심층적으로 분석.
정량, 정성 (데이터 직접 눈으로 관찰) 평가 모두 필요.
대안: 각 단계에서 실험 결과를 해석하고, metric 외의 관찰 가능한 패턴 및 문제점 도출.
test submission 결과와 correlation 경향성 있도록 validation set 구성하는 것 중요

2. EDA (Exploratory Data Analysis)

필수 분석 요소:
이미지 데이터의 width, height 등 시각적 특성 분석.
클래스 불균형 여부 확인 및 시각화.
실행 제안:
데이터 샘플 10장을 확인하며 인사이트 도출.
쉽게 반영 가능한 기본 베이스라인 코드 작성.

3. 적절한 의사결정

Metric 중심으로 의사결정하되, 데이터의 분포 차이와 local validation set 난이도를 고려.
Validation set 난이도를 높여 실제 test set과 유사한 환경을 조성.

4. Test Set 분석

Test set의 주요 특징 확인:
Noise, rotation, flip, color 변화 정도 확인.
Augmentation 실험:
Test set과 유사한 패턴을 반영한 offline augmentation 전략 설계.

5. Mix-Up Image 실험

Mix-Up 사용 시 성능 저하 관찰.
추가 실험 필요:
Mix-Up 전략 수정 또는 특정 데이터셋 조건에서 제외.

6. 발표 피드백 및 협업

실험 기록: 기록 방식의 일관성 유지.
코드 공유: 팀 협업을 위해 코드 공유 플랫폼 적극 활용.
Iterative 분석:
지속적으로 문제를 정의하고 실험을 개선하는 반복적 접근.

7. Augraphy 사용 및 병목 현상

Augraphy에서 CPU 사용량이 많아 병목 현상 발생.
개선:
Online augmentation 대신 offline 처리로 효율 개선.

대회 일반

1. 데이터 분석 및 모델링 절차

데이터 원천 검증

데이터 원본 확인 및 논리적 점검.
실험 가능한 사이트 정리 및 가장 쉽게 반영 가능한 사이트부터 베이스라인 작성.
대회에서 augmentation 전략 활용 강조.
기본 베이스라인을 코드화하여 내재화하고, 제출 후 결과 확인.

파라미터 및 검증

하이퍼파라미터 튜닝: Epochs, Learning rate, Backbones 등 간단히 변경 가능한 요소부터 조정.
어느 정도 리더보드 점수 갱신 데이터 누적되면, correlation 있는 validation set 정리
하이퍼 파라미터를 변경했을 때 validation score와 리더보드 스코어 correlation이 중요
검증 데이터셋의 적합성과 Test 데이터 검토 후 문제 정의 데이터셋 분석.
이 과정부터 본격적인 EDA 시작!
Test 이미지(=정의된 문제를 잘 평가할 수 있는 데이터셋) 면밀하게 검토하여 인사이트 정리

데이터 분석

Correlation 있는 validation 확인 후 본격적인 EDA 및 실험.
데이터 계속 살펴보면서 여러 가설을 정리
주요 분석 요소:
잘못된 라벨 정리 및 성능 향상 여부 확인.
Class imbalance 해결을 위한 oversampling
가설 도출 후 검증.

이미지 처리 특화

모델 결과 분석:
모델 결과 예측 후 어떤 클래스를 잘 못하는지, 어떤 데이터의 점수 잘 못하는지 분석
만약, rotate 이미지를 잘 예측 못하면, 학습할 때 rotate augmentation 추가
만약, 텍스트 이미지에 왜 mixup된 이미지가 보인다, 학습할 때 mixup augmentation 추가
결국 EDA를 통해 문제를 해결하기 위한 가설을 도출, 해당 가설 실험하면서 성능 향상에 대한 깊은 고민
이런 과정이 되어야 다시 데이터를 보아야 할 수도 있고, 모델링을 보아할 수도 있음
특정 클래스나 데이터에서의 약점을 파악하고 augmentation 전략 추가(예: rotate, mixup).
문제 해결 가설 도출 → 실험 → 데이터/모델링 재점검.
EDA를 중심으로 데이터와 모델 개선.

2. 대회 제작 과정

현업 연계성

현업 문제를 다룰 수 있는 대회 설계 고민.
Kaggle과 달리 실질적인 문제를 다룰 필요성.
의료/산업 데이터와 달리 문서 이미지 데이터의 실효성 강조.
실 생활해보면, 도메인 상관없이 문서 이미지는 항상 다룸
금융쪽에서도, 의료쪽에서도, 관공서에서도, 심지어 IT 회사에서도 문서이미지는 처리
특히, 여러 대기업에서 아날로그 문서를 디지털화 하려는 작업이 최근에 많이 진행되고 있음
문서 디지털화 작업의 트렌드를 반영한 대회 설계.

3. 중요한 경험과 문제 해결 프로세스

문제 해결 관점의 접근법:
대회 문제 정의 및 해결 필요성 분석.
ML/DL 어떤 모델로 풀어야 할까?
Evaluation metric이 문제 해결 성과를 정확히 반영하는가? → 메타 인지적 고민 필요
문제 정의 역량:
연구/현업에서 문제 정의 능력이 중요.
연구와 제품 모두 문제 해결 중심으로 설계되어야 함.

기타 다른 팀 분석 및 실험 참고

Data EDA

Train vs Test Set 분석:
데이터 분포 차이 시각화.
샘플 데이터 비교 및 이상치(outlier) 파악.
텍스트 검출 및 추출:
EasyOCR로 텍스트 영역 검출.
PaddleOCR로 텍스트 추출 및 추가 처리.

모델 파라미터 구성

Optimizer:
AdamW, SGD 비교 실험.
Scheduler:
Cosine, Sequential 비교.
Loss Function:
Cross Entropy (CE), Focal Loss.
Batch Size, Image Size:
다양한 설정으로 실험.

Ensemble 전략

Temperature Scaling 등 Ensemble 방법 별 성능 비교.

발표 시 추가 개선

Intro에서 실험 목적과 접근 방법을 구체적으로 설명.
Audience의 이해도를 고려한 간결하고 명확한 프레젠테이션.