← 목록으로
데이터데이터

데이터 공모전 필승 전략

공일 운영자·7분 읽기

데이터 공모전의 특성


데이터 공모전은 크게 두 종류다:

  • 분석형: 주어진 데이터로 인사이트 도출
  • 예측형: 모델 성능(정확도) 경쟁

  • 각각 접근법이 다르다.


    분석형 공모전 전략


    핵심: "So What?"에 답할 수 있는가


    데이터 분석 결과 "A와 B 사이 상관관계가 0.7이다"는 의미 없다.

    "A를 10% 개선하면 B가 7% 올라간다. 따라서 정책적으로 A에 집중해야 한다"가 인사이트다.


    접근 순서:

  • 데이터 탐색 (EDA) - 전체 시간의 40%
  • 가설 설정 - 10%
  • 가설 검증 분석 - 30%
  • 스토리라인 구성 - 20%

  • EDA에서 볼 것:

  • 결측치 패턴 (무작위? 아니면 특정 조건?)
  • 이상치 (제거? 유지? 별도 분석?)
  • 변수 간 상관관계 히트맵
  • 시계열이면 트렌드/계절성

  • 예측형 공모전 전략


    핵심: Public 리더보드를 믿지 마라


    캐글이나 데이콘에서 Public 점수에 오버피팅하면 Private에서 폭망한다.


    안전한 접근:

  • 데이터를 train/valid/test로 3분할
  • Valid로 모델 선택
  • Test는 최종 확인용으로만 1-2번 사용

  • 피처 엔지니어링이 80%:

  • 도메인 지식 필수 (해당 분야 논문/리포트 읽기)
  • 외부 데이터 연계 (공공데이터, 날씨, 경제지표)
  • 시계열: lag feature, rolling mean, 요일/월 인코딩

  • 모델 선택:

  • 정형 데이터: XGBoost, LightGBM, CatBoost 앙상블
  • 딥러닝은 데이터 10만 행 이상일 때만 고려
  • AutoML (PyCaret, H2O)로 베이스라인 빠르게

  • 평가지표별 전략


    RMSE:

  • 이상치에 민감. 이상치 처리 먼저.
  • log 변환 고려 (타겟이 skewed면)

  • AUC-ROC:

  • 임계값 튜닝 불필요 (AUC는 임계값 무관)
  • 확률 calibration이 중요

  • F1 Score:

  • 클래스 불균형 처리 필수
  • SMOTE, class weight, focal loss

  • Accuracy:

  • 불균형 데이터에서는 의미 없음
  • baseline (다수 클래스 예측)보다 얼마나 나은지 확인

  • 발표 차별화


    코드/모델보다 "왜 이 접근을 했는가"를 설명

  • 데이터 특성상 이러이러해서 이 전처리를 선택
  • 이 피처가 중요한 이유는 도메인 관점에서...
  • 앙상블 조합을 이렇게 한 이유는...