Initial commit

megvii-research · Jul 12, 2022 · b6aeb83 · b6aeb83
commit b6aeb83
Show file tree

Hide file tree

Showing 93 changed files with 2,938 additions and 0 deletions.
diff --git a/Experiments/audio_regression/configs/bach/val_der_sine.txt b/Experiments/audio_regression/configs/bach/val_der_sine.txt
@@ -0,0 +1,5 @@
+exp_name = bach/val_der_sine
+
+supervision = val_der
+filename = gt_bach.wav
+activations = [sine, sine, sine, sine]
diff --git a/Experiments/audio_regression/configs/bach/val_sine.txt b/Experiments/audio_regression/configs/bach/val_sine.txt
@@ -0,0 +1,5 @@
+exp_name = bach/val_sine
+
+supervision = val
+filename = gt_bach.wav
+activations = [sine, sine, sine, sine]
diff --git a/Experiments/audio_regression/configs/counting/val_der_sine.txt b/Experiments/audio_regression/configs/counting/val_der_sine.txt
@@ -0,0 +1,5 @@
+exp_name = counting/val_der_sine
+
+supervision = val_der
+filename = gt_counting.wav
+activations = [sine, sine, sine, sine]
diff --git a/Experiments/audio_regression/configs/counting/val_sine.txt b/Experiments/audio_regression/configs/counting/val_sine.txt
@@ -0,0 +1,5 @@
+exp_name = counting/val_sine
+
+supervision = val
+filename = gt_counting.wav
+activations = [sine, sine, sine, sine]
diff --git a/Experiments/audio_regression/dataset.py b/Experiments/audio_regression/dataset.py
@@ -0,0 +1,38 @@
+import os
+
+import kornia
+import scipy.io.wavfile as wavfile
+
+import torch
+
+
+def get_data(data_root, filename, factor):
+
+    rate, wav = wavfile.read(os.path.join(data_root, filename))    
+    print("Rate: %d" % rate)
+    print("Raw data shape: ", wav.shape)
+
+    wav = torch.tensor(wav).reshape(-1, 1)
+    scale = torch.max(torch.abs(wav))
+    wav = wav / scale # (N, 1)
+
+    grad = kornia.filters.spatial_gradient(wav.unsqueeze(0).unsqueeze(0), mode='diff', order=1, normalized=True).squeeze() # (2, N)
+    grad = grad[1, :].reshape(-1, 1) # (N, 1)
+
+    coordinate = torch.linspace(0, len(wav) - 1, len(wav)).reshape(-1, 1) # (N, 1)
+
+    downsampled_wav = wav[::factor, :]
+    downsampled_grad = grad[::factor, :]
+    downsampled_coordinate = coordinate[::factor, :]
+
+    return {
+            'wav': wav,
+            'grad': grad,
+            'coordinate': coordinate,
+
+            'downsampled_wav': downsampled_wav,
+            'downsampled_grad': downsampled_grad,
+            'downsampled_coordinate': downsampled_coordinate,
+            }
+
+
diff --git a/Experiments/audio_regression/diff_operators.py b/Experiments/audio_regression/diff_operators.py
@@ -0,0 +1,9 @@
+import torch
+
+
+def gradient(y, x, grad_outputs=None):
+    if grad_outputs is None:
+        grad_outputs = torch.ones_like(y)
+    grad = torch.autograd.grad(y, [x], grad_outputs=grad_outputs, create_graph=True)[0]
+    return grad
+
diff --git a/Experiments/audio_regression/loss.py b/Experiments/audio_regression/loss.py
@@ -0,0 +1,18 @@
+import torch
+
+
+def mse(x, y):
+    return (x - y).pow(2).mean()
+
+
+def val_mse(gt, pred):
+    val_loss = mse(gt, pred)
+
+    return {'val_loss': val_loss}
+
+
+def der_mse(gt_grad, pred_grad):
+    weights = torch.ones(gt_grad.shape[1]).to(gt_grad.device)
+    der_loss = torch.mean((weights * (gt_grad - pred_grad).pow(2)).sum(-1))
+
+    return {'der_loss': der_loss}
diff --git a/Experiments/audio_regression/main.py b/Experiments/audio_regression/main.py
@@ -0,0 +1,167 @@
+import os
+import shutil
+
+import torch
+from torch.utils.tensorboard import SummaryWriter
+
+from dataset import get_data 
+from model import MLP
+from loss import *
+from utils import *
+
+set_random_seed(0)
+
+
+def config_parser():
+
+    import configargparse
+    parser = configargparse.ArgumentParser()
+    parser.add_argument('--config', is_config_file=True, help="Path of config file.")
+
+    # logging options
+    parser.add_argument('--logging_root', type=str, default='./logs/', help="Where to store ckpts and logs.")
+    parser.add_argument('--epochs_til_ckpt', type=int, default=1000, help="Time interval in epochs until checkpoint is saved.")
+    parser.add_argument('--epochs_til_summary', type=int, default=100, help="Time interval in epochs until tensorboard summary is saved.")
+
+    # training options
+    parser.add_argument('--lrate', type=float, default='5e-5')
+    parser.add_argument('--num_epochs', type=int, default=8000, help="Number of epochs to train for.")
+
+    # experiment options
+    parser.add_argument('--exp_name', type=str, default='supervision_val_der',
+                        help="Name of experiment.")
+    parser.add_argument('--supervision', type=str, default='val_der', choices=('val', 'der', 'val_der'))
+    parser.add_argument('--activations', nargs='+', default=['sine', 'sine', 'sine', 'sine'])
+    parser.add_argument('--w0', type=float, default='30.')
+    parser.add_argument('--has_pos_encoding', action='store_true')
+    parser.add_argument('--lambda_der', type=float, default='1.')
+
+    # model options
+    parser.add_argument('--hidden_features', type=int, default=256)
+    parser.add_argument('--num_hidden_layers', type=int, default=3)
+
+    # dataset options
+    parser.add_argument('--data_root', type=str, default='../../data/Audio', help="Root path to audio dataset.")
+    parser.add_argument('--filename', type=str, help="Name of wav file.")
+    parser.add_argument('--factor', type=int, default=5, help="Factor of downsampling.")
+
+    return parser
+
+
+def train(args, model, data, epochs, lrate, epochs_til_summary, epochs_til_checkpoint, logging_dir, train_summary_fn, test_summary_fn, log_f):
+
+    summaries_dir = os.path.join(logging_dir, 'summaries')
+    os.makedirs(summaries_dir)
+    writer = SummaryWriter(summaries_dir)
+
+    checkpoints_dir = os.path.join(logging_dir, 'checkpoints')
+    os.makedirs(checkpoints_dir)
+
+    out_train_imgs_dir = os.path.join(logging_dir, 'out_train_imgs')
+    os.makedirs(out_train_imgs_dir)
+
+    out_test_imgs_dir = os.path.join(logging_dir, 'out_test_imgs')
+    os.makedirs(out_test_imgs_dir)
+
+    optim = torch.optim.Adam(lr=lrate, params=model.parameters())
+
+    # move data to GPU
+    data = {key: value.cuda() for key, value in data.items() if torch.is_tensor(value)}
+
+    for epoch in range(1, epochs + 1):
+
+        # forward and calculate loss
+        model_output = model(data['downsampled_coordinate'], mode='train')
+        losses = {}
+        losses.update(val_mse(data['downsampled_wav'], model_output['pred']))
+        losses.update(der_mse(data['downsampled_grad'], model_output['pred_grad']))
+        if args.supervision == 'val':
+            train_loss = losses['val_loss']
+        elif args.supervision == 'der':
+            train_loss = losses['der_loss']
+        elif args.supervision == 'val_der':
+            train_loss = 1. * losses['val_loss'] + args.lambda_der * losses['der_loss']
+        # tensorboard
+        for loss_name, loss in losses.items():
+            writer.add_scalar(loss_name, loss, epoch)
+        writer.add_scalar("train_loss", train_loss, epoch)
+
+        # backward
+        optim.zero_grad()
+        train_loss.backward()
+        optim.step()
+
+        if (not epoch % epochs_til_summary) or (epoch == epochs):
+
+            # training summary
+            psnr = train_summary_fn(data, model_output, writer, epoch, out_train_imgs_dir)
+            str_print = "[Train] epoch: (%d/%d) " % (epoch, epochs)
+            for loss_name, loss in losses.items():
+                str_print += loss_name + ": %0.6f, " % loss
+            str_print += "PSNR: %.3f " % (psnr)
+            print(str_print)
+            print(str_print, file=log_f)
+
+            # test summary
+            with torch.no_grad():
+                model_output = model(data['coordinate'], mode='test')
+                psnr = test_summary_fn(data, model_output, writer, epoch, out_test_imgs_dir, args.factor, args.filename)
+                str_print = "[Test]: PSNR: %.3f" % (psnr)
+                print(str_print)
+                print(str_print, file=log_f)
+
+        # save checkpoint
+        if (not epoch % epochs_til_checkpoint) or (epoch == epochs):
+            torch.save(model.state_dict(), os.path.join(checkpoints_dir, 'model_epoch_%05d.pth' % epoch))
+
+    torch.save(model.state_dict(), os.path.join(checkpoints_dir, 'model_final.pth'))
+
+
+def main():
+
+    parser = config_parser()
+    args = parser.parse_args()
+
+    logging_dir = os.path.join(args.logging_root, args.exp_name)
+    if os.path.exists(logging_dir):
+        if input("The logging directory %s exists. Overwrite? (y/n)" % logging_dir) == 'y':
+            shutil.rmtree(logging_dir)
+    os.makedirs(logging_dir)
+
+    with open(os.path.join(logging_dir, 'log.txt'), 'w') as log_f:
+
+        print("Args:\n", args)
+        print("Args:\n", args, file=log_f)
+
+        data = get_data(args.data_root, args.filename, args.factor)
+        print('Shape of original wav:', data['wav'].shape)
+        print('Shape of downsampled wav:', data['downsampled_wav'].shape)
+
+        model = MLP(
+                in_features=1,
+                out_features=1,
+                w0=args.w0,
+                activations=args.activations,
+                hidden_features=args.hidden_features,
+                num_hidden_layers=args.num_hidden_layers,
+                has_pos_encoding=args.has_pos_encoding,
+                length=len(data['wav']),
+                fn_samples=len(data['downsampled_wav']))
+        model.cuda()
+
+        train(
+                args=args, 
+                model=model, 
+                data=data, 
+                epochs=args.num_epochs, 
+                lrate=args.lrate, 
+                epochs_til_summary=args.epochs_til_summary, 
+                epochs_til_checkpoint=args.epochs_til_ckpt, 
+                logging_dir=logging_dir, 
+                train_summary_fn=write_train_summary,
+                test_summary_fn=write_test_summary,
+                log_f=log_f)
+
+
+if __name__=='__main__':
+    main()