Update package version mapping

Apsu · Apsu · commit a2617b16be47 · 2025-03-17T15:03:45.000-04:00
diff --git a/.github/workflows/build-vllm.yaml b/.github/workflows/build-vllm.yaml
@@ -5,13 +5,12 @@ env:
   TORCH_CUDA_ARCH_LIST: 9.0a
   VLLM_FA_CMAKE_GPU_ARCHES: 90a-real
   TRITON_REF: release/3.2.x
-  TRITON_BUILD_VERSION: 3.2.0
+  TRITON_BUILD_SUFFIX: +cu126
   XFORMERS_REF: v0.0.29.post2
-  XFORMERS_BUILD_VERSION: 0.0.29.post2
+  XFORMERS_BUILD_VERSION: 0.0.29.post2+cu126
   FLASHINFER_REF: v0.2.2.post1
-  FLASHINFER_BUILD_VERSION: 0.2.2.post1
-  VLLM_REF: v0.8.0
-  VLLM_BUILD_VERSION: 0.8.0
+  FLASHINFER_BUILD_SUFFIX: cu126
+  VLLM_REF: v0.8.0rc2
 
 on:
   push:
@@ -54,25 +53,22 @@ jobs:
           build-args: |
             CUDA_VERSION=${{ matrix.cuda_version }}
             IMAGE_DISTRO=${{ matrix.image_distro }}
-            MAX_JOBS=${{ env.MAX_JOBS }}
-            NVCC_THREADS=${{ env.NVCC_THREADS }}
             TORCH_CUDA_ARCH_LIST=${{ env.TORCH_CUDA_ARCH_LIST }}
             VLLM_FA_CMAKE_GPU_ARCHES=${{ env.VLLM_FA_CMAKE_GPU_ARCHES }}
             TRITON_REF=${{ env.TRITON_REF }}
-            TRITON_BUILD_VERSION=${{ env.TRITON_BUILD_VERSION }}
+            TRITON_BUILD_SUFFIX=${{ env.TRITON_BUILD_SUFFIX }}
             XFORMERS_REF=${{ env.XFORMERS_REF }}
             XFORMERS_BUILD_VERSION=${{ env.XFORMERS_BUILD_VERSION }}
             FLASHINFER_REF=${{ env.FLASHINFER_REF }}
-            FLASHINFER_BUILD_VERSION=${{ env.FLASHINFER_BUILD_VERSION }}
+            FLASHINFER_BUILD_SUFFIX=${{ env.FLASHINFER_BUILD_SUFFIX }}
             VLLM_REF=${{ env.VLLM_REF }}
-            VLLM_BUILD_VERSION=${{ env.VLLM_BUILD_VERSION }}
           cache-from: type=registry,ref=${{ env.GHCR_IMAGE }}:cache-cu${{ env.CUDA_TAG }}-${{ matrix.arch }}
           cache-to: type=registry,ref=${{ env.GHCR_IMAGE }}:cache-cu${{ env.CUDA_TAG }}-${{ matrix.arch }},mode=max
           context: .
           file: Dockerfile
           platforms: linux/${{ matrix.arch }}
           push: true
-          tags: ${{ env.GHCR_IMAGE }}:${{ env.VLLM_BUILD_VERSION }}-cu${{ env.CUDA_TAG }}-${{ matrix.arch }}
+          tags: ${{ env.GHCR_IMAGE }}:${{ env.VLLM_REF }}-cu${{ env.CUDA_TAG }}-${{ matrix.arch }}
 
   # Fix this to use matrix and handle imagetools create --append
   ghcr:
@@ -93,6 +89,6 @@ jobs:
 
       - name: Tag images
         run: |
-          TAGS=(${VLLM_BUILD_VERSION}-cu${CUDA_TAG}-{amd,arm}64)
-          docker buildx imagetools create -t ${GHCR_IMAGE}:${VLLM_BUILD_VERSION} ${TAGS[@]/#/${GHCR_IMAGE}:}
+          TAGS=(${VLLM_REF}-cu${CUDA_TAG}-{amd,arm}64)
+          docker buildx imagetools create -t ${GHCR_IMAGE}:${VLLM_REF} ${TAGS[@]/#/${GHCR_IMAGE}:}
           docker buildx imagetools create -t ${GHCR_IMAGE}:latest ${TAGS[@]/#/${GHCR_IMAGE}:}
diff --git a/Dockerfile b/Dockerfile
@@ -57,8 +57,8 @@ RUN uv pip install -U build cmake ninja pybind11 setuptools wheel
 
 FROM build-base AS build-triton
 ARG TRITON_REF=release/3.2.x
-ARG TRITON_BUILD_VERSION=3.2.0
-ENV BUILD_VERSION=${TRITON_BUILD_VERSION:-${TRITON_REF#v}}
+ARG TRITON_BUILD_SUFFIX=+cu126
+ENV TRITON_WHEEL_VERSION_SUFFIX=${TRITON_BUILD_SUFFIX:-}
 RUN git clone https://github.com/triton-lang/triton.git
 RUN cd triton && \
     git checkout ${TRITON_REF} && \
@@ -68,7 +68,7 @@ RUN cd triton && \
 
 FROM build-base AS build-xformers
 ARG XFORMERS_REF=v0.0.29.post2
-ARG XFORMERS_BUILD_VERSION=0.0.29.post2
+ARG XFORMERS_BUILD_VERSION=0.0.29.post2+cu126
 ENV BUILD_VERSION=${XFORMERS_BUILD_VERSION:-${XFORMERS_REF#v}}
 RUN git clone  https://github.com/facebookresearch/xformers.git
 RUN cd xformers && \
@@ -80,8 +80,8 @@ RUN cd xformers && \
 FROM build-base AS build-flashinfer
 ARG FLASHINFER_ENABLE_AOT=1
 ARG FLASHINFER_REF=v0.2.2.post1
-ARG FLASHINFER_BUILD_VERSION=0.2.2.post1
-ENV FLASHINFER_LOCAL_VERSION=${FLASHINFER_BUILD_VERSION:-${FLASHINFER_REF#v}}
+ARG FLASHINFER_BUILD_SUFFIX=cu126
+ENV FLASHINFER_LOCAL_VERSION=${FLASHINFER_BUILD_SUFFIX:-}
 RUN git clone https://github.com/flashinfer-ai/flashinfer.git
 RUN cd flashinfer && \
     git checkout ${FLASHINFER_REF} && \
@@ -90,9 +90,7 @@ RUN cd flashinfer && \
     uv build --wheel --no-build-isolation -o /wheels
 
 FROM build-base AS build-vllm
-ARG VLLM_REF=v0.8.0
-ARG VLLM_BUILD_VERSION=0.8.0
-ENV BUILD_VERSION=${VLLM_BUILD_VERSION:-${VLLM_REF#v}}
+ARG VLLM_REF=v0.8.0rc2
 RUN git clone https://github.com/vllm-project/vllm.git
 RUN cd vllm && \
     git checkout ${VLLM_REF} && \