testset support

zhang-can · zhang-can · commit d6fd5f32b1ef · 2018-05-29T14:36:30.000+08:00
diff --git a/.gitignore b/.gitignore
@@ -104,4 +104,7 @@ ENV/
 
 data/*.txt
 
-*.pth.tar
+*.pth.tar
+*.pth
+
+output/
diff --git a/gen_dataset_test_lists.py b/gen_dataset_test_lists.py
@@ -0,0 +1,67 @@
+# processing the raw data of the video datasets (something-something and jester)
+# generate the meta files:
+#   dataset_test.txt:      each row contains [video_path num_frames video_name]
+#
+# Created by: Can Zhang
+# github: @zhang-can, May,28th 2018
+#
+
+import argparse
+import os
+import pdb
+
+parser = argparse.ArgumentParser()
+parser.add_argument('dataset', type=str, choices=['something', 'jester'])
+parser.add_argument('frame_path', type=str, help="root directory holding the frames")
+parser.add_argument('--labels_path', type=str, default='data/dataset_labels/', help="root directory holding the csv files: labels, train & validation")
+parser.add_argument('--out_list_path', type=str, default='data/')
+
+args = parser.parse_args()
+
+dataset = args.dataset
+labels_path = args.labels_path
+frame_path = args.frame_path
+
+if dataset == 'something':
+    dataset_name = 'something-something-v1'
+elif dataset == 'jester':
+    dataset_name = 'jester-v1'
+
+# print('\nProcessing dataset: {}\n'.format(dataset))
+
+# print('- Generating {}_category.txt ......'.format(dataset))
+# with open(os.path.join(labels_path, '{}-labels.csv'.format(dataset_name))) as f:
+#     lines = f.readlines()
+# categories = []
+# for line in lines:
+#     line = line.rstrip()
+#     categories.append(line)
+# categories = sorted(categories)
+# open(os.path.join(args.out_list_path, '{}_category.txt'.format(dataset)),'w').write('\n'.join(categories))
+# print('- Saved as:', os.path.join(args.out_list_path, '{}_category.txt!\n'.format(dataset)))
+
+# dict_categories = {}
+# for i, category in enumerate(categories):
+#     dict_categories[category] = i
+
+files_input = ['{}-test.csv'.format(dataset_name)]
+files_output = ['{}_test.txt'.format(dataset)]
+for (filename_input, filename_output) in zip(files_input, files_output):
+    with open(os.path.join(labels_path, filename_input)) as f:
+        lines = f.readlines()
+    folders = []
+    for line in lines:
+        line = line.rstrip()
+        items = line
+        folders.append(items)
+    output = []
+    for i in range(len(folders)):
+        curFolder = folders[i]
+        # counting the number of frames in each video folders
+        dir_files = os.listdir(os.path.join(frame_path, curFolder))
+        output.append('{} {} {}'.format(os.path.join(frame_path, curFolder), len(dir_files), curFolder))
+        if i % 1000 == 0:
+            print('- Generating {} ({}/{})'.format(filename_output, i, len(folders)))
+    with open(os.path.join(args.out_list_path, filename_output),'w') as f:
+        f.write('\n'.join(output))
+    print('- Saved as:', os.path.join(args.out_list_path, '{}!\n'.format(filename_output)))
diff --git a/test_models.py b/test_models.py
@@ -14,7 +14,7 @@
 # options
 parser = argparse.ArgumentParser(
     description="Standard video-level testing")
-parser.add_argument('dataset', type=str, choices=['ucf101', 'hmdb51', 'kinetics'])
+parser.add_argument('dataset', type=str, choices=['ucf101', 'hmdb51', 'kinetics', 'something'])
 parser.add_argument('modality', type=str, choices=['RGB', 'Flow', 'RGBDiff'])
 parser.add_argument('test_list', type=str)
 parser.add_argument('weights', type=str)
@@ -32,6 +32,7 @@
                     help='number of data loading workers (default: 4)')
 parser.add_argument('--gpus', nargs='+', type=int, default=None)
 parser.add_argument('--flow_prefix', type=str, default='')
+parser.add_argument('--rgb_prefix', type=str, default='')
 
 args = parser.parse_args()
 
@@ -42,6 +43,8 @@
     num_class = 51
 elif args.dataset == 'kinetics':
     num_class = 400
+elif args.dataset == 'something':
+    num_class = 174
 else:
     raise ValueError('Unknown dataset '+args.dataset)
 
@@ -73,7 +76,7 @@
         TSNDataSet("", args.test_list, num_segments=args.test_segments,
                    new_length=1 if args.modality == "RGB" else 5,
                    modality=args.modality,
-                   image_tmpl="img_{:05d}.jpg" if args.modality in ['RGB', 'RGBDiff'] else args.flow_prefix+"{}_{:05d}.jpg",
+                   image_tmpl=args.rgb_prefix+"{:05d}.jpg" if args.modality in ['RGB', 'RGBDiff'] else args.flow_prefix+"{}_{:05d}.jpg",
                    test_mode=True,
                    transform=torchvision.transforms.Compose([
                        cropping,
diff --git a/test_models_for_test.py b/test_models_for_test.py
@@ -0,0 +1,181 @@
+import argparse
+import time
+
+import numpy as np
+import torch.nn.parallel
+import torch.optim
+from sklearn.metrics import confusion_matrix
+
+from dataset import TSNDataSet
+from models import TSN
+from transforms import *
+from ops import ConsensusModule
+
+import os
+
+# options
+parser = argparse.ArgumentParser(
+    description="Standard video-level testing")
+parser.add_argument('dataset', type=str, choices=['ucf101', 'hmdb51', 'kinetics', 'something'])
+parser.add_argument('modality', type=str, choices=['RGB', 'Flow', 'RGBDiff'])
+parser.add_argument('test_list', type=str)
+parser.add_argument('weights', type=str)
+parser.add_argument('result_file', type=str)
+parser.add_argument('--arch', type=str, default="resnet101")
+parser.add_argument('--save_scores', type=str, default=None)
+parser.add_argument('--test_segments', type=int, default=25)
+parser.add_argument('--max_num', type=int, default=-1)
+parser.add_argument('--test_crops', type=int, default=10)
+parser.add_argument('--input_size', type=int, default=224)
+parser.add_argument('--crop_fusion_type', type=str, default='avg',
+                    choices=['avg', 'max', 'topk'])
+parser.add_argument('--k', type=int, default=3)
+parser.add_argument('--dropout', type=float, default=0.7)
+parser.add_argument('-j', '--workers', default=4, type=int, metavar='N',
+                    help='number of data loading workers (default: 4)')
+parser.add_argument('--gpus', nargs='+', type=int, default=None)
+parser.add_argument('--flow_prefix', type=str, default='')
+parser.add_argument('--rgb_prefix', type=str, default='')
+parser.add_argument('--out_list_path', type=str, default='data/')
+
+args = parser.parse_args()
+
+if args.dataset == 'ucf101':
+    num_class = 101
+elif args.dataset == 'hmdb51':
+    num_class = 51
+elif args.dataset == 'kinetics':
+    num_class = 400
+elif args.dataset == 'something':
+    num_class = 174
+else:
+    raise ValueError('Unknown dataset '+args.dataset)
+
+net = TSN(num_class, 1, args.modality,
+          base_model=args.arch,
+          consensus_type=args.crop_fusion_type,
+          dropout=args.dropout)
+
+checkpoint = torch.load(args.weights)
+print("model epoch {} best prec@1: {}".format(checkpoint['epoch'], checkpoint['best_prec1']))
+
+# list element type: tuple
+base_dict = {'.'.join(k.split('.')[1:]): v for k,v in list(checkpoint['state_dict'].items())}
+net.load_state_dict(base_dict)
+
+if args.test_crops == 1:
+    cropping = torchvision.transforms.Compose([
+        GroupScale(net.scale_size),
+        GroupCenterCrop(net.input_size),
+    ])
+elif args.test_crops == 10:
+    cropping = torchvision.transforms.Compose([
+        GroupOverSample(net.input_size, net.scale_size)
+    ])
+else:
+    raise ValueError("Only 1 and 10 crops are supported while we got {}".format(args.test_crops))
+
+data_loader = torch.utils.data.DataLoader(
+        TSNDataSet("", args.test_list, num_segments=args.test_segments,
+                   new_length=1 if args.modality == "RGB" else 5,
+                   modality=args.modality,
+                   image_tmpl=args.rgb_prefix+"{:05d}.jpg" if args.modality in ['RGB', 'RGBDiff'] else args.flow_prefix+"{}_{:05d}.jpg",
+                   test_mode=True,
+                   transform=torchvision.transforms.Compose([
+                       cropping,
+                       Stack(roll=args.arch == 'BNInception'),
+                       ToTorchFormatTensor(div=args.arch != 'BNInception'),
+                       GroupNormalize(net.input_mean, net.input_std),
+                   ])),
+        batch_size=1, shuffle=False,
+        num_workers=args.workers * 2, pin_memory=True)
+
+if args.gpus is not None:
+    devices = [args.gpus[i] for i in range(args.workers)]
+else:
+    devices = list(range(args.workers))
+
+
+net = torch.nn.DataParallel(net.cuda(devices[0]), device_ids=devices)
+net.eval()
+
+data_gen = enumerate(data_loader)
+
+total_num = len(data_loader.dataset)
+output = []
+
+
+def eval_video(video_data):
+    i, data, label = video_data
+    num_crop = args.test_crops
+
+    if args.modality == 'RGB':
+        length = 3
+    elif args.modality == 'Flow':
+        length = 10
+    elif args.modality == 'RGBDiff':
+        length = 18
+    else:
+        raise ValueError("Unknown modality "+args.modality)
+
+    input_var = torch.autograd.Variable(data.view(-1, length, data.size(2), data.size(3)),
+                                        volatile=True)
+    rst = net(input_var).data.cpu().numpy().copy()
+    return i, rst.reshape((num_crop, args.test_segments, num_class)).mean(axis=0).reshape(
+        (args.test_segments, 1, num_class)
+    ), label[0]
+
+
+proc_start_time = time.time()
+max_num = args.max_num if args.max_num > 0 else len(data_loader.dataset)
+
+for i, (data, label) in data_gen:
+    if i >= max_num:
+        break
+    rst = eval_video((i, data, label))
+    output.append(rst[1:])
+    cnt_time = time.time() - proc_start_time
+    print('video {} done, total {}/{}, average {} sec/video'.format(i, i+1,
+                                                                    total_num,
+                                                                    float(cnt_time) / (i+1)))
+
+video_pred = [np.argmax(np.mean(x[0], axis=0)) for x in output]
+
+video_ids = [x[1] for x in output]
+
+category_lines = open(os.path.join(args.out_list_path, '{}_category.txt'.format(args.dataset))).readlines()
+categories = [line.rstrip() for line in category_lines]
+
+test_results = ["{};{}".format(video_ids[i], categories[int(video_pred[i])]) for i in range(len(output))]
+
+open(os.path.join(args.result_file),'w').write('\n'.join(test_results))
+
+# cf = confusion_matrix(video_labels, video_pred).astype(float)
+
+# cls_cnt = cf.sum(axis=1)
+# cls_hit = np.diag(cf)
+
+# cls_acc = cls_hit / cls_cnt
+
+# print(cls_acc)
+
+# print('Accuracy {:.02f}%'.format(np.mean(cls_acc) * 100))
+
+# if args.save_scores is not None:
+
+#     # reorder before saving
+#     name_list = [x.strip().split()[0] for x in open(args.test_list)]
+
+#     order_dict = {e:i for i, e in enumerate(sorted(name_list))}
+
+#     reorder_output = [None] * len(output)
+#     reorder_label = [None] * len(output)
+
+#     for i in range(len(output)):
+#         idx = order_dict[name_list[i]]
+#         reorder_output[idx] = output[i]
+#         reorder_label[idx] = video_labels[i]
+
+#     np.savez(args.save_scores, scores=reorder_output, labels=reorder_label)
+
+