728x90
반응형
얼마전 아는 사람으로부터 Data Scientist 인터뷰에 나왔던 문제를 공유 받았다. 문제는 time series 모델링에 대한 것이고, 예측 모델을 만들어 주어진 데이터 밖의 값을 예측하는 것이다. 데이터 사이언스 관련해서 공부하는 사람이 있다면 한번 생각해 봐도 좋을 것 같아 문제를 포스팅 해본다.
문제는 다음과 같다.
한 달 동안 다른 도로에서 기록된 차량의 속도에 대한 데이타가 주어진다. 이것으로부터 예측모델을 만들고 다음 10, 20, 30분 후의 속도를 예측하라.
요구사항:
1. 전체 데이터를 훈련과 검증을 위한 세트로 분할하라
2. performance metrics 를 선택하고 모델의 성능을 평가하라
3. 프레젠테이션을 만들어 문제 해결 과정을 설명하라.
4. 코드와 ppt를 zip파일로 묶어 보내라
Data:
1. 데이타는 Google Drive에서 받을 수 있다.
2. 데이터에 대한 정보는 Traffic Speed Map에서 얻을 수 있다.
관련 데이터는 위 박스의 링크에서 다운로드할 수 있다. 또한, 모델링을 하는데 참고할 만한 사이트는 바로 tensorflow를 이용한 time series forecasting이다. linear regression과 같은 간단한 모델로 풀 수 있겠고, 가능하면 CNN이나 RNN과 같은 Deep learning 기법을 이용해서 해결해 보는 것도 좋겠다.
www.tensorflow.org/tutorials/structured_data/time_series#convolution_neural_network
728x90
반응형
'Programming > Time series forecasting' 카테고리의 다른 글
교차검증으로 최적의 시계열(time-series) 예측 모델 찾기 (ft. GridSearchCV) (1) | 2021.05.13 |
---|---|
시계열 모델의 교차검증 (cross-validation) 전략 (파이썬 코드 포함) (0) | 2021.05.04 |
Time series 분석 I: importing and plotting data (0) | 2021.04.15 |
댓글