huggingface · Guppy16 · Aug 16, 2024 · Aug 16, 2024 · Aug 16, 2024 · Sep 26, 2024
diff --git a/parler_tts/dac_wrapper/modeling_dac.py b/parler_tts/dac_wrapper/modeling_dac.py
@@ -11,6 +11,7 @@
 
 class DACModel(PreTrainedModel):
     config_class = DACConfig
+    main_input_name = "input_values"
 
     def __init__(self, config):
         super().__init__(config)

diff --git a/parler_tts/modeling_parler_tts.py b/parler_tts/modeling_parler_tts.py
@@ -3387,7 +3387,8 @@ def generate(
                 )
 
         # build the delay pattern mask for offsetting each codebook prediction by 1 (this behaviour is specific to Parler-TTS)
-        input_ids, decoder_delay_pattern_mask = self.decoder.build_delay_pattern_mask(
+        # but don't overwrite the input_ids tensor with the delay pattern mask. We perform that later
+        _, decoder_delay_pattern_mask = self.decoder.build_delay_pattern_mask(
             input_ids,
             bos_token_id=generation_config._bos_token_tensor,
             pad_token_id=generation_config._pad_token_tensor,
@@ -3442,6 +3443,7 @@ def generate(
                 generation_config=generation_config,
                 synced_gpus=synced_gpus,
                 streamer=streamer,
+                logits_warper=None,
                 **model_kwargs,
             )