데이터 공모전 필승 전략

데이터 공모전의 특성

데이터 공모전은 크게 두 종류다:

분석형: 주어진 데이터로 인사이트 도출

예측형: 모델 성능(정확도) 경쟁

각각 접근법이 다르다.

분석형 공모전 전략

핵심: "So What?"에 답할 수 있는가

데이터 분석 결과 "A와 B 사이 상관관계가 0.7이다"는 의미 없다.

"A를 10% 개선하면 B가 7% 올라간다. 따라서 정책적으로 A에 집중해야 한다"가 인사이트다.

접근 순서:

데이터 탐색 (EDA) - 전체 시간의 40%

가설 설정 - 10%

가설 검증 분석 - 30%

스토리라인 구성 - 20%

EDA에서 볼 것:

결측치 패턴 (무작위? 아니면 특정 조건?)

이상치 (제거? 유지? 별도 분석?)

변수 간 상관관계 히트맵

시계열이면 트렌드/계절성

예측형 공모전 전략

핵심: Public 리더보드를 믿지 마라

캐글이나 데이콘에서 Public 점수에 오버피팅하면 Private에서 폭망한다.

안전한 접근:

데이터를 train/valid/test로 3분할

Valid로 모델 선택

Test는 최종 확인용으로만 1-2번 사용

피처 엔지니어링이 80%:

도메인 지식 필수 (해당 분야 논문/리포트 읽기)

외부 데이터 연계 (공공데이터, 날씨, 경제지표)

시계열: lag feature, rolling mean, 요일/월 인코딩

모델 선택:

정형 데이터: XGBoost, LightGBM, CatBoost 앙상블

딥러닝은 데이터 10만 행 이상일 때만 고려

AutoML (PyCaret, H2O)로 베이스라인 빠르게

평가지표별 전략

RMSE:

이상치에 민감. 이상치 처리 먼저.

log 변환 고려 (타겟이 skewed면)

AUC-ROC:

임계값 튜닝 불필요 (AUC는 임계값 무관)

확률 calibration이 중요

F1 Score:

클래스 불균형 처리 필수

SMOTE, class weight, focal loss

Accuracy:

불균형 데이터에서는 의미 없음

baseline (다수 클래스 예측)보다 얼마나 나은지 확인

발표 차별화

코드/모델보다 "왜 이 접근을 했는가"를 설명

데이터 특성상 이러이러해서 이 전처리를 선택

이 피처가 중요한 이유는 도메인 관점에서...

앙상블 조합을 이렇게 한 이유는...