머신러닝프로젝트정리1
날씨 데이터로 따릉이 이용현황 예측
- 서울에서 시행되고 있는 무인 공공 자전거 대여 서비스 “따릉이”의 이용현황을 날씨 데이터와 결합해 분석하고 예측모델 생성
데이터셋
-
서울시 공공 자전거 이용현황의 일별 대여건수(서울 열린 데이터 광장 포털에서 수집)
-
날씨 데이터(기상청 기상자료포털의 종관기상관측(ASOS))
-
결측치 처리 1. Daily Precipitation(218)->drop 2. Insolation Sum(2) -> 평균값으로 대체
-
year, month, season 등 카테고리 형 변수는 원-핫 인코딩 적용
모델링
-
종속변수인 날씨 데이터는 여러개이며 선형적이고 독립변수인 공공자전거 대여건수는 하나이므로 단일 선형다중회귀분석 실시
-
선형회귀: 실제값과 예측값의 차이, 구체적으로 오류의 제곱값을 최소화하는 직선형 회귀선을 최적화하는 방식
평가
-
RMSLE(Root Mean Squared Log Error)
-
실제값과 예측값의 차이를 제곱해 평균: MSE
-
루트(MSE) = RMSE, log(RMSE) = RMSLE
-
RMSLE: 0.392, RMSE: 14052.963, MAE: 10406.273
한계
- 히스토그램을 보면 위로 볼록한 종의 정규분포의 형태가 아니다. 정규성 가정 위반!
- 최종 모델의 회귀계수 값 중 “평균온도”의 계수가 음의 값을 가진다.(상식과 반대)
- 종속변수들의 완전히 독립이지 않다.
- 더 정확한 모델을 구축하려면 단순 선형회귀 보다 종속변수간의 correlation을 고려해주는 분석방법을 사용해야 한다.