머신러닝프로젝트정리3

최대 1 분 소요

버스 승객수 예측

  • 정형 데이터 분석

데이터

  • String 형식으로 저장되어있는 “date” 칼럼을 datetime 형식으로 수집
  • 인덱스 형식의 id 칼럼 제거
  • target variable의 값이 0이 굉장히 많고 치우쳐진 형태라서 log 변환 실시
  • 데이터 칼럼 중 고유한 station만 나타내는 칼럼은 station_code

모델링

  • date의 앞의 3주: train, 뒤의 1주: test로 설정하고 validation
  • Ridge, Lasso, Decision Tree, Random Forest, LightGBM 로 모델링해 적합한 모델 확인
  • 날씨 정보 추가
  • 승하차 시간 2주 간격으로 묶음
  • 버스 노선, 정차별 순서 구하고 몇번째 정규장인지 뒤에서부터 몇번째인지 몇개의 정류장이 있는지
  • 정류장, 중복되지 않는 위경으로 값 수정, kmeans를 통해 군립함
  • lgbm_cat 앙상블

태그:

카테고리:

업데이트: