Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Assignment 7. Ошибка в процедуре обучения #35

Open
AndrejBazhan opened this issue May 27, 2022 · 1 comment
Open

Comments

@AndrejBazhan
Copy link

Надо заменить
if i % TRAIN_EVERY: -> if i % TRAIN_EVERY==0 или if i % TRAIN_EVERY==TRAIN_EVERY-1
И так же ниже по визуализации.
А то сейчас обучение и визуализация на каждом эпизоде. Даже не сразу заметно.

@AndrejBazhan
Copy link
Author

AndrejBazhan commented May 27, 2022

И по идейной части.
В конце рекомендуется реализовать Critic, прогноз baseline по state нейросетью.
Но ожидаемый reward на шаге t сильно зависит не только от состояния, но и от самого t. Грубо говоря, к концу игры надо предсказывать остаточный reward до 200 шага. Из такого же состояния в начале эпизода - это большая разница. И это сильно путает сеть )
Надо дать рекомендацию подавать на вход этой части сети и t. В итоге реализовать policy с 2 входами - state и t.
Для обучения распределения вероятностей action - только state на вход.
И обратить внимание, что если делать единую сеть для обоих предсказаний, то при расчете loss для экшенов нужно задетачить тензор предсказанного baseline. А то оптимизатор будет уменьшать этот лосс путем ухудшения baseline, мешать второй части его точно предсказывать )

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant