Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Automated window size selection #1190

Closed
valer1435 opened this issue Oct 30, 2023 · 4 comments · Fixed by #1237
Closed

Automated window size selection #1190

valer1435 opened this issue Oct 30, 2023 · 4 comments · Fixed by #1237
Labels
enhancement New feature or request time series related to time series processing

Comments

@valer1435
Copy link
Collaborator

If we want to implement this approach in fedot we need to consider aspects and limitations below:

  1. We would get different window size in each cv fold that will affect on dimension for following models, if we will choose window size for each fold
  2. We would get inappropriate window size for csv folds if we will choose window size based on a whole train time series. (Chosen window size might be bigger than fold length)
  3. How we should implement this technique? In lagged operation directly or as standalone module?
@valer1435 valer1435 added the enhancement New feature or request label Oct 30, 2023
@kasyanovse
Copy link
Collaborator

  1. Окно можно выбрать на самом маленьком фолде в кросс валидации (первый). Сохранить в узле lagged и больше не трогать.
  2. Согласен.
  3. Я за то, чтобы сделать частью узла lagged.

@valer1435
Copy link
Collaborator Author

Окно можно выбрать на самом маленьком фолде в кросс валидации (первый). Сохранить в узле lagged и больше не трогать.

При таком подходе теряем возможность подстроиться под более новые данные.

Но при подсчете на всем ряду получается своего рода даталик, когда мы смотрим на весь ряд, получаем из него информацию и потом используем для обучения на фолдах

@valer1435
Copy link
Collaborator Author

Я бы попробовал менять его при каждом вызове fit

@kasyanovse
Copy link
Collaborator

При таком подходе теряем возможность подстроиться под более новые данные.

А зачем под них подстраиваться? Размер окна - гиперпараметр, а не параметр модели. Хотя в некоторые модели можно его добавить на уровне параметра, выбираемого при обучении.

Но при подсчете на всем ряду получается своего рода даталик, когда мы смотрим на весь ряд, получаем из него информацию и потом используем для обучения на фолдах

Если окно - гиперпараметр, то утечки данных быть не должно.

@kasyanovse kasyanovse linked a pull request Dec 27, 2023 that will close this issue
@kasyanovse kasyanovse added the time series related to time series processing label Dec 27, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request time series related to time series processing
Projects
None yet
Development

Successfully merging a pull request may close this issue.

2 participants