머신러닝프로젝트정리2

최대 1 분 소요

미국성인인구조사데이터셋을이용한소득예측

  • 정형데이터

데이터셋

  • 결측치 처리: ?로 저장되어 있음

  • 데이터 중 치우쳐져 잇는 데이터는 로그변환을 통해 정규성을 띄게 변환, 선별적으로 로그를 취함

  • 데이터 칼럼 스케일링_standard scaler(평균과 표준편차, 이상치가 있는 경우 데이터의 확산이 달라짐, 스케일링은 다차원들의 값들을 비교분석하기 쉽게 만들어줌)

  • 범주형 데이터 원-핫 인코딩

모델링

  • K-Fold Cross Validation 실행(n_splits=5)

  • Logistic Regression, RandomForestClassifier, XGBClassifier, LGBMClassifier, 스택킹

  • XGBClassifier로 최종 모델링

평가

  • Cross validation score: 0.8674(F1 score)

태그:

카테고리:

업데이트: