🧀 Use drop_remainder=True.

dathudeptrai · dathudeptrai · commit 042abd04e036 · 2020-11-25T10:10:53.000+07:00
diff --git a/examples/fastspeech/fastspeech_dataset.py b/examples/fastspeech/fastspeech_dataset.py
@@ -246,7 +246,9 @@ def create(
         # define padded shapes
         padded_shapes = {"utt_ids": [], "input_ids": [None]}
 
-        datasets = datasets.padded_batch(batch_size, padded_shapes=padded_shapes)
+        datasets = datasets.padded_batch(
+            batch_size, padded_shapes=padded_shapes, drop_remainder=True
+        )
         datasets = datasets.prefetch(tf.data.experimental.AUTOTUNE)
         return datasets
 
diff --git a/examples/fastspeech2/fastspeech2_dataset.py b/examples/fastspeech2/fastspeech2_dataset.py
@@ -227,7 +227,9 @@ def create(
             "mel_lengths": [],
         }
 
-        datasets = datasets.padded_batch(batch_size, padded_shapes=padded_shapes)
+        datasets = datasets.padded_batch(
+            batch_size, padded_shapes=padded_shapes, drop_remainder=True
+        )
         datasets = datasets.prefetch(tf.data.experimental.AUTOTUNE)
         return datasets
 
diff --git a/examples/fastspeech2_libritts/fastspeech2_dataset.py b/examples/fastspeech2_libritts/fastspeech2_dataset.py
@@ -231,7 +231,9 @@ def create(
             "mel_lengths": [],
         }
 
-        datasets = datasets.padded_batch(batch_size, padded_shapes=padded_shapes)
+        datasets = datasets.padded_batch(
+            batch_size, padded_shapes=padded_shapes, drop_remainder=True
+        )
         datasets = datasets.prefetch(tf.data.experimental.AUTOTUNE)
         return datasets
 
diff --git a/examples/melgan/audio_mel_dataset.py b/examples/melgan/audio_mel_dataset.py
@@ -80,15 +80,15 @@ def generator(self, utt_ids):
         for i, utt_id in enumerate(utt_ids):
             audio_file = self.audio_files[i]
             mel_file = self.mel_files[i]
-            
+
             items = {
                 "utt_ids": utt_id,
                 "audio_files": audio_file,
-                "mel_files": mel_file
+                "mel_files": mel_file,
             }
 
             yield items
-    
+
     @tf.function
     def _load_data(self, items):
         audio = tf.numpy_function(np.load, [items["audio_files"]], tf.float32)
@@ -101,7 +101,7 @@ def _load_data(self, items):
             "mel_lengths": len(mel),
             "audio_lengths": len(audio),
         }
-        
+
         return items
 
     def create(
@@ -120,8 +120,7 @@ def create(
 
         # load dataset
         datasets = datasets.map(
-            lambda items: self._load_data(items),
-            tf.data.experimental.AUTOTUNE
+            lambda items: self._load_data(items), tf.data.experimental.AUTOTUNE
         )
 
         datasets = datasets.filter(
@@ -165,17 +164,19 @@ def create(
         }
 
         datasets = datasets.padded_batch(
-            batch_size, padded_shapes=padded_shapes, padding_values=padding_values
+            batch_size,
+            padded_shapes=padded_shapes,
+            padding_values=padding_values,
+            drop_remainder=True,
         )
         datasets = datasets.prefetch(tf.data.experimental.AUTOTUNE)
-
         return datasets
 
     def get_output_dtypes(self):
         output_types = {
             "utt_ids": tf.string,
             "audio_files": tf.string,
-            "mel_files": tf.string
+            "mel_files": tf.string,
         }
         return output_types
 
diff --git a/examples/tacotron2/tacotron_dataset.py b/examples/tacotron2/tacotron_dataset.py
@@ -235,7 +235,10 @@ def create(
         }
 
         datasets = datasets.padded_batch(
-            batch_size, padded_shapes=padded_shapes, padding_values=padding_values
+            batch_size,
+            padded_shapes=padded_shapes,
+            padding_values=padding_values,
+            drop_remainder=True,
         )
         datasets = datasets.prefetch(tf.data.experimental.AUTOTUNE)
         return datasets

Original file line number	Diff line number	Diff line change
`@@ -227,7 +227,9 @@ def create(`
`227`	`227`	`"mel_lengths": [],`
`228`	`228`	`}`
`229`	`229`
`230`		`- datasets = datasets.padded_batch(batch_size, padded_shapes=padded_shapes)`
	`230`	`+ datasets = datasets.padded_batch(`
	`231`	`+ batch_size, padded_shapes=padded_shapes, drop_remainder=True`
	`232`	`+ )`
`231`	`233`	`datasets = datasets.prefetch(tf.data.experimental.AUTOTUNE)`
`232`	`234`	`return datasets`
`233`	`235`
Original file line number	Diff line number	Diff line change
`@@ -231,7 +231,9 @@ def create(`
`231`	`231`	`"mel_lengths": [],`
`232`	`232`	`}`
`233`	`233`
`234`		`- datasets = datasets.padded_batch(batch_size, padded_shapes=padded_shapes)`
	`234`	`+ datasets = datasets.padded_batch(`
	`235`	`+ batch_size, padded_shapes=padded_shapes, drop_remainder=True`
	`236`	`+ )`
`235`	`237`	`datasets = datasets.prefetch(tf.data.experimental.AUTOTUNE)`
`236`	`238`	`return datasets`
`237`	`239`
Original file line number	Diff line number	Diff line change
`@@ -235,7 +235,10 @@ def create(`
`235`	`235`	`}`
`236`	`236`
`237`	`237`	`datasets = datasets.padded_batch(`
`238`		`- batch_size, padded_shapes=padded_shapes, padding_values=padding_values`
	`238`	`+ batch_size,`
	`239`	`+ padded_shapes=padded_shapes,`
	`240`	`+ padding_values=padding_values,`
	`241`	`+ drop_remainder=True,`
`239`	`242`	`)`
`240`	`243`	`datasets = datasets.prefetch(tf.data.experimental.AUTOTUNE)`
`241`	`244`	`return datasets`