머신러닝프로젝트정리1

최대 1 분 소요

날씨 데이터로 따릉이 이용현황 예측

  • 서울에서 시행되고 있는 무인 공공 자전거 대여 서비스 “따릉이”의 이용현황을 날씨 데이터와 결합해 분석하고 예측모델 생성

데이터셋

  • 서울시 공공 자전거 이용현황의 일별 대여건수(서울 열린 데이터 광장 포털에서 수집)

  • 날씨 데이터(기상청 기상자료포털의 종관기상관측(ASOS))

  • 결측치 처리 1. Daily Precipitation(218)->drop 2. Insolation Sum(2) -> 평균값으로 대체

  • year, month, season 등 카테고리 형 변수는 원-핫 인코딩 적용

모델링

  • 종속변수인 날씨 데이터는 여러개이며 선형적이고 독립변수인 공공자전거 대여건수는 하나이므로 단일 선형다중회귀분석 실시

  • 선형회귀: 실제값과 예측값의 차이, 구체적으로 오류의 제곱값을 최소화하는 직선형 회귀선을 최적화하는 방식

평가

  • RMSLE(Root Mean Squared Log Error)

  • 실제값과 예측값의 차이를 제곱해 평균: MSE

  • 루트(MSE) = RMSE, log(RMSE) = RMSLE

  • RMSLE: 0.392, RMSE: 14052.963, MAE: 10406.273

한계

  • 히스토그램을 보면 위로 볼록한 종의 정규분포의 형태가 아니다. 정규성 가정 위반!
  • 최종 모델의 회귀계수 값 중 “평균온도”의 계수가 음의 값을 가진다.(상식과 반대)
  • 종속변수들의 완전히 독립이지 않다.
  • 더 정확한 모델을 구축하려면 단순 선형회귀 보다 종속변수간의 correlation을 고려해주는 분석방법을 사용해야 한다.

태그:

카테고리:

업데이트: