randomness of audit data set #155

rickardbrannvall · 2024-09-30T13:08:21Z

Issue

I noticed that indices included in audit_dataset differ between runs even if random seeds are kept fixed.

Same audit dataset should be generated for fixed random seeds (and sizes etc).

Perhaps random number generators (streams) need to be global and used explicitly in all random functions.

Log audit dataset indices between two runs and check for agreement.

rickardbrannvall · 2024-09-30T13:10:22Z

Problem may be related to code in data_preparation.py in dev_utils function prepare_train_test_dataset.