머신러닝프로젝트정리3
버스 승객수 예측
- 정형 데이터 분석
데이터
- String 형식으로 저장되어있는 “date” 칼럼을 datetime 형식으로 수집
- 인덱스 형식의 id 칼럼 제거
- target variable의 값이 0이 굉장히 많고 치우쳐진 형태라서 log 변환 실시
- 데이터 칼럼 중 고유한 station만 나타내는 칼럼은 station_code
모델링
- date의 앞의 3주: train, 뒤의 1주: test로 설정하고 validation
- Ridge, Lasso, Decision Tree, Random Forest, LightGBM 로 모델링해 적합한 모델 확인
- 날씨 정보 추가
- 승하차 시간 2주 간격으로 묶음
- 버스 노선, 정차별 순서 구하고 몇번째 정규장인지 뒤에서부터 몇번째인지 몇개의 정류장이 있는지
- 정류장, 중복되지 않는 위경으로 값 수정, kmeans를 통해 군립함
- lgbm_cat 앙상블