[Bugfix] MLPSpeculator: Use ParallelLMHead in tie_weights=False case. (…

…vllm-project#6303) Signed-off-by: Thomas Parnell <[email protected]>
xjpang · Jul 24, 2024 · 836ae08 · 836ae08
1 parent 445987d
commit 836ae08
Showing 1 changed file with 1 addition and 1 deletion.
diff --git a/vllm/model_executor/models/mlp_speculator.py b/vllm/model_executor/models/mlp_speculator.py
@@ -110,7 +110,7 @@ def __init__(self, config: MLPSpeculatorConfig, **kwargs) -> None:
             ])
 
             self.head = nn.ModuleList([
-                nn.Linear(self.inner_dim, self.vocab_size, bias=False)
+                ParallelLMHead(self.vocab_size, self.inner_dim, bias=False)
                 for _ in range(self.max_speculative_tokens)
             ])
             self.ln = nn.ModuleList([