머신러닝프로젝트정리2
미국성인인구조사데이터셋을이용한소득예측
- 정형데이터
데이터셋
-
결측치 처리: ?로 저장되어 있음
-
데이터 중 치우쳐져 잇는 데이터는 로그변환을 통해 정규성을 띄게 변환, 선별적으로 로그를 취함
-
데이터 칼럼 스케일링_standard scaler(평균과 표준편차, 이상치가 있는 경우 데이터의 확산이 달라짐, 스케일링은 다차원들의 값들을 비교분석하기 쉽게 만들어줌)
-
범주형 데이터 원-핫 인코딩
모델링
-
K-Fold Cross Validation 실행(n_splits=5)
-
Logistic Regression, RandomForestClassifier, XGBClassifier, LGBMClassifier, 스택킹
-
XGBClassifier로 최종 모델링
평가
- Cross validation score: 0.8674(F1 score)