[python] add aot config for nxdi with vllm (deepjavalibrary#2691)

sindhuvahinis · web-flow · commit 28951de78093 · 2025-01-29T10:11:38.000-08:00
diff --git a/engines/python/setup/djl_python/transformers_neuronx.py b/engines/python/setup/djl_python/transformers_neuronx.py
@@ -36,6 +36,7 @@
 OPTIMUM_CAUSALLM_MODEL_TYPES = {"gpt2", "opt", "bloom", "llama", "mistral"}
 OPTIMUM_CAUSALLM_CONTINUOUS_BATCHING_MODELS = {"llama", "mistral"}
 VLLM_CONTINUOUS_BATCHING_MODELS = {"llama"}
+NXDI_COMPILED_MODEL_FILE_NAME = "model.pt"
 
 
 class TransformersNeuronXService(object):
@@ -141,6 +142,14 @@ def set_model_loader_class(self) -> None:
         if self.config.model_loader == "nxdi":
             os.environ[
                 'VLLM_NEURON_FRAMEWORK'] = "neuronx-distributed-inference"
+            if self.config.save_mp_checkpoint_path:
+                os.environ[
+                    "NEURON_COMPILED_ARTIFACTS"] = self.config.save_mp_checkpoint_path
+            nxdi_compiled_model_path = os.path.join(
+                self.config.model_id_or_path, NXDI_COMPILED_MODEL_FILE_NAME)
+            if os.path.isfile(nxdi_compiled_model_path):
+                os.environ[
+                    "NEURON_COMPILED_ARTIFACTS"] = self.config.model_id_or_path
             return
 
         if self.config.model_loader == "vllm":
diff --git a/tests/integration/llm/client.py b/tests/integration/llm/client.py
@@ -172,6 +172,10 @@ def get_model_name():
     "llama-3-1-8b-instruct-vllm-nxdi": {
         "batch_size": [1, 2],
         "seq_length": [256],
+    },
+    "llama-3-2-1b-instruct-vllm-nxdi-aot": {
+        "batch_size": [1],
+        "seq_length": [128],
     }
 }
 
diff --git a/tests/integration/llm/prepare.py b/tests/integration/llm/prepare.py
@@ -271,6 +271,22 @@
                 "deterministic": False
             }
         }
+    },
+    "llama-3-2-1b-instruct-vllm-nxdi-aot": {
+        "option.model_id": "s3://djl-llm/llama-3-2-1b-instruct/",
+        "option.tensor_parallel_degree": 2,
+        "option.rolling_batch": "vllm",
+        "option.model_loading_timeout": 1200,
+        "option.model_loader": "nxdi",
+        "option.override_neuron_config": {
+            "on_device_sampling_config": {
+                "global_topk": 64,
+                "dynamic": True,
+                "deterministic": False
+            }
+        },
+        "option.n_positions": 128,
+        "option.max_rolling_batch_size": 1,
     }
 }
 
diff --git a/tests/integration/tests.py b/tests/integration/tests.py
@@ -900,6 +900,22 @@ def test_llama_vllm_nxdi(self):
                 "transformers_neuronx_rolling_batch llama-3-1-8b-instruct-vllm-nxdi"
             )
 
+    def test_llama_vllm_nxdi_aot(self):
+        with Runner('pytorch-inf2',
+                    'llama-3-2-1b-instruct-vllm-nxdi-aot') as r:
+            prepare.build_transformers_neuronx_handler_model(
+                "llama-3-2-1b-instruct-vllm-nxdi-aot")
+            r.launch(
+                container="pytorch-inf2-1",
+                cmd=
+                "partition --model-dir /opt/ml/input/data/training --save-mp-checkpoint-path /opt/ml/input/data/training/aot --skip-copy"
+            )
+            r.launch(container="pytorch-inf2-1",
+                     cmd="serve -m test=file:/opt/ml/model/test/aot")
+            client.run(
+                "transformers_neuronx_rolling_batch llama-3-2-1b-instruct-vllm-nxdi-aot"
+            )
+
 
 @pytest.mark.correctness
 @pytest.mark.trtllm

Original file line number	Diff line number	Diff line change
`@@ -172,6 +172,10 @@ def get_model_name():`
`172`	`172`	`"llama-3-1-8b-instruct-vllm-nxdi": {`
`173`	`173`	`"batch_size": [1, 2],`
`174`	`174`	`"seq_length": [256],`
	`175`	`+ },`
	`176`	`+ "llama-3-2-1b-instruct-vllm-nxdi-aot": {`
	`177`	`+ "batch_size": [1],`
	`178`	`+ "seq_length": [128],`
`175`	`179`	`}`
`176`	`180`	`}`
`177`	`181`
Original file line number	Diff line number	Diff line change
`@@ -271,6 +271,22 @@`
`271`	`271`	`"deterministic": False`
`272`	`272`	`}`
`273`	`273`	`}`
	`274`	`+ },`
	`275`	`+ "llama-3-2-1b-instruct-vllm-nxdi-aot": {`
	`276`	`+ "option.model_id": "s3://djl-llm/llama-3-2-1b-instruct/",`
	`277`	`+ "option.tensor_parallel_degree": 2,`
	`278`	`+ "option.rolling_batch": "vllm",`
	`279`	`+ "option.model_loading_timeout": 1200,`
	`280`	`+ "option.model_loader": "nxdi",`
	`281`	`+ "option.override_neuron_config": {`
	`282`	`+ "on_device_sampling_config": {`
	`283`	`+ "global_topk": 64,`
	`284`	`+ "dynamic": True,`
	`285`	`+ "deterministic": False`
	`286`	`+ }`
	`287`	`+ },`
	`288`	`+ "option.n_positions": 128,`
	`289`	`+ "option.max_rolling_batch_size": 1,`
`274`	`290`	`}`
`275`	`291`	`}`
`276`	`292`