데이터 공모전의 특성
데이터 공모전은 크게 두 종류다:
분석형: 주어진 데이터로 인사이트 도출예측형: 모델 성능(정확도) 경쟁각각 접근법이 다르다.
분석형 공모전 전략
핵심: "So What?"에 답할 수 있는가
데이터 분석 결과 "A와 B 사이 상관관계가 0.7이다"는 의미 없다.
"A를 10% 개선하면 B가 7% 올라간다. 따라서 정책적으로 A에 집중해야 한다"가 인사이트다.
접근 순서:
데이터 탐색 (EDA) - 전체 시간의 40%가설 설정 - 10%가설 검증 분석 - 30%스토리라인 구성 - 20%EDA에서 볼 것:
결측치 패턴 (무작위? 아니면 특정 조건?)이상치 (제거? 유지? 별도 분석?)변수 간 상관관계 히트맵시계열이면 트렌드/계절성예측형 공모전 전략
핵심: Public 리더보드를 믿지 마라
캐글이나 데이콘에서 Public 점수에 오버피팅하면 Private에서 폭망한다.
안전한 접근:
데이터를 train/valid/test로 3분할Valid로 모델 선택Test는 최종 확인용으로만 1-2번 사용피처 엔지니어링이 80%:
도메인 지식 필수 (해당 분야 논문/리포트 읽기)외부 데이터 연계 (공공데이터, 날씨, 경제지표)시계열: lag feature, rolling mean, 요일/월 인코딩모델 선택:
정형 데이터: XGBoost, LightGBM, CatBoost 앙상블딥러닝은 데이터 10만 행 이상일 때만 고려AutoML (PyCaret, H2O)로 베이스라인 빠르게평가지표별 전략
RMSE:
이상치에 민감. 이상치 처리 먼저.log 변환 고려 (타겟이 skewed면)AUC-ROC:
임계값 튜닝 불필요 (AUC는 임계값 무관)확률 calibration이 중요F1 Score:
클래스 불균형 처리 필수SMOTE, class weight, focal lossAccuracy:
불균형 데이터에서는 의미 없음baseline (다수 클래스 예측)보다 얼마나 나은지 확인발표 차별화
코드/모델보다 "왜 이 접근을 했는가"를 설명
데이터 특성상 이러이러해서 이 전처리를 선택이 피처가 중요한 이유는 도메인 관점에서...앙상블 조합을 이렇게 한 이유는...