Assignment 7. Ошибка в процедуре обучения #35

AndrejBazhan · 2022-05-27T10:53:42Z

Надо заменить
if i % TRAIN_EVERY: -> if i % TRAIN_EVERY==0 или if i % TRAIN_EVERY==TRAIN_EVERY-1
И так же ниже по визуализации.
А то сейчас обучение и визуализация на каждом эпизоде. Даже не сразу заметно.

AndrejBazhan · 2022-05-27T11:11:49Z

И по идейной части.
В конце рекомендуется реализовать Critic, прогноз baseline по state нейросетью.
Но ожидаемый reward на шаге t сильно зависит не только от состояния, но и от самого t. Грубо говоря, к концу игры надо предсказывать остаточный reward до 200 шага. Из такого же состояния в начале эпизода - это большая разница. И это сильно путает сеть )
Надо дать рекомендацию подавать на вход этой части сети и t. В итоге реализовать policy с 2 входами - state и t.
Для обучения распределения вероятностей action - только state на вход.
И обратить внимание, что если делать единую сеть для обоих предсказаний, то при расчете loss для экшенов нужно задетачить тензор предсказанного baseline. А то оптимизатор будет уменьшать этот лосс путем ухудшения baseline, мешать второй части его точно предсказывать )

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Assignment 7. Ошибка в процедуре обучения #35

Assignment 7. Ошибка в процедуре обучения #35

AndrejBazhan commented May 27, 2022

AndrejBazhan commented May 27, 2022 •

edited

Loading

Assignment 7. Ошибка в процедуре обучения #35

Assignment 7. Ошибка в процедуре обучения #35

Comments

AndrejBazhan commented May 27, 2022

AndrejBazhan commented May 27, 2022 • edited Loading

AndrejBazhan commented May 27, 2022 •

edited

Loading