728x90 반응형 Programming/Time series forecasting4 교차검증으로 최적의 시계열(time-series) 예측 모델 찾기 (ft. GridSearchCV) 교차검증 적용으로 최적의 시계열 모델 찾기 지난 포스팅에서 open power system data에 대한 전처리 과정과 데이터 visualization을 해보았다. 2021.04.15 - [Programming/Time series forecasting] - Time series 분석 I: importing and plotting data 이번 포스팅에서는 지난 포스팅에서 다듬은 최종 데이터로부터, cross-validation을 이용해 time series 예측의 최적화 모델을 찾는 방법을 살펴 보도록 하겠다. 이 과정은 참고 링크의 포스팅을 참고 하였다. 위 링크의 포스팅에서 최종적으로 다듬은 데이터는 다음과 같다. display(df) data_consumption = data.loc[:,['Co.. 2021. 5. 13. (Data scientist 인터뷰) Time series forecasting 예제 얼마전 아는 사람으로부터 Data Scientist 인터뷰에 나왔던 문제를 공유 받았다. 문제는 time series 모델링에 대한 것이고, 예측 모델을 만들어 주어진 데이터 밖의 값을 예측하는 것이다. 데이터 사이언스 관련해서 공부하는 사람이 있다면 한번 생각해 봐도 좋을 것 같아 문제를 포스팅 해본다. 문제는 다음과 같다. 한 달 동안 다른 도로에서 기록된 차량의 속도에 대한 데이타가 주어진다. 이것으로부터 예측모델을 만들고 다음 10, 20, 30분 후의 속도를 예측하라. 요구사항: 1. 전체 데이터를 훈련과 검증을 위한 세트로 분할하라 2. performance metrics 를 선택하고 모델의 성능을 평가하라 3. 프레젠테이션을 만들어 문제 해결 과정을 설명하라. 4. 코드와 ppt를 zip파일.. 2021. 5. 9. 시계열 모델의 교차검증 (cross-validation) 전략 (파이썬 코드 포함) 두 가지 time series 교차검증 (cross-validation) 방법 교차검증 cross validataion (CV) 은 데이터 모델링에 있어 모델의 정확도를 확인할 수 있는 효율적인 방법이다. 이것은 데이터를 훈련용과 테스트용을 순서 없이 나누는 과정을 포함한다. 하지만, 전후 데이터 사이의 상관관계가 존재하는 시계열 데이터(time series data)를 모델링할 때는 기존의 사용하는 CV를 적용할 수 없다. 이때는 시간순으로 나열된 데이터를 보존하면서 훈련용과 테스트용으로 데이터를 나눠야 한다. 다음의 두 가지 방법이 대표적으로 사용된다. Time series cross validation / blocked time cross validation Helper function: visua.. 2021. 5. 4. Time series 분석 I: importing and plotting data 도입 머신러닝을 이용한 예측 모델에는 데이터셋 내의 값들이 시간에 따라 달라지는 시계열 데이터(time series)를 다루는 문제도 포함된다. 대표적인 예로 주식의 차트를 들 수 있다. 시가/종가가 매일 달라지는 것이 바로 시간에 따른 주식 가격의 변화를 시간순으로 축적한 것이다. 또한 채소 가격의 변화라든가 지구의 평균 온도의 변화도 시계열 분석의 대상이 될 수 있다. 최근에는 효율적인 교통 신호 시스템 구축을 위해 교통량의 추이를 분석하는 연구에도 시계열 분석법이 활발히 사용되고 있다. 이런 시계열 데이터의 가장 큰 특징은 바로 값들 사이에 어떤 상관관계가 존재한다는 것이다. 풀어서 얘기하자면, 가깝게는 어제의 값이 오늘의 값에 영향을 주고, 조금 더 길게는 과거의 패턴이 현재 혹은 미래의 값을 결.. 2021. 4. 15. 이전 1 다음 728x90 반응형