You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Надо заменить
if i % TRAIN_EVERY: -> if i % TRAIN_EVERY==0 или if i % TRAIN_EVERY==TRAIN_EVERY-1
И так же ниже по визуализации.
А то сейчас обучение и визуализация на каждом эпизоде. Даже не сразу заметно.
The text was updated successfully, but these errors were encountered:
И по идейной части.
В конце рекомендуется реализовать Critic, прогноз baseline по state нейросетью.
Но ожидаемый reward на шаге t сильно зависит не только от состояния, но и от самого t. Грубо говоря, к концу игры надо предсказывать остаточный reward до 200 шага. Из такого же состояния в начале эпизода - это большая разница. И это сильно путает сеть )
Надо дать рекомендацию подавать на вход этой части сети и t. В итоге реализовать policy с 2 входами - state и t.
Для обучения распределения вероятностей action - только state на вход.
И обратить внимание, что если делать единую сеть для обоих предсказаний, то при расчете loss для экшенов нужно задетачить тензор предсказанного baseline. А то оптимизатор будет уменьшать этот лосс путем ухудшения baseline, мешать второй части его точно предсказывать )
Надо заменить
if i % TRAIN_EVERY: -> if i % TRAIN_EVERY==0 или if i % TRAIN_EVERY==TRAIN_EVERY-1
И так же ниже по визуализации.
А то сейчас обучение и визуализация на каждом эпизоде. Даже не сразу заметно.
The text was updated successfully, but these errors were encountered: