huggingface · alvarobartt · Dec 13, 2024 · Dec 13, 2024 · Dec 13, 2024 · Dec 13, 2024
diff --git a/examples/gke/deploy-paligemma-2-with-tgi/README.md b/examples/gke/deploy-paligemma-2-with-tgi/README.md
diff --git a/examples/gke/deploy-paligemma-2-with-tgi/config/deployment.yaml b/examples/gke/deploy-paligemma-2-with-tgi/config/deployment.yaml
@@ -0,0 +1,51 @@
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: tgi
+spec:
+  replicas: 1
+  selector:
+    matchLabels:
+      app: tgi
+  template:
+    metadata:
+      labels:
+        app: tgi
+        hf.co/model: google--paligemma2-3b-pt-224
+        hf.co/task: text-generation
+    spec:
+      containers:
+        - name: tgi
+          image: "us-central1-docker.pkg.dev/gcp-partnership-412108/deep-learning-images/huggingface-text-generation-inference-gpu.3.0.1"
+          # image: "us-docker.pkg.dev/deeplearning-platform-release/gcr.io/huggingface-text-generation-inference-cu124.3-0.ubuntu2204.py311"
+          resources:
+            requests:
+              nvidia.com/gpu: 1
+            limits:
+              nvidia.com/gpu: 1
+          env:
+            - name: MODEL_ID
+              value: google/paligemma2-3b-pt-224
+            - name: NUM_SHARD
+              value: "1"
+            - name: PORT
+              value: "8080"
+            - name: HF_TOKEN
+              valueFrom:
+                secretKeyRef:
+                  name: hf-secret
+                  key: hf_token
+          volumeMounts:
+            - mountPath: /dev/shm
+              name: dshm
+            - mountPath: /tmp
+              name: tmp
+      volumes:
+        - name: dshm
+          emptyDir:
+            medium: Memory
+            sizeLimit: 1Gi
+        - name: tmp
+          emptyDir: {}
+      nodeSelector:
+        cloud.google.com/gke-accelerator: nvidia-l4
diff --git a/examples/gke/deploy-paligemma-2-with-tgi/config/ingress.yaml b/examples/gke/deploy-paligemma-2-with-tgi/config/ingress.yaml
@@ -0,0 +1,18 @@
+apiVersion: networking.k8s.io/v1
+kind: Ingress
+metadata:
+  name: tgi
+  # https://cloud.google.com/kubernetes-engine/docs/concepts/ingress
+  annotations:
+    kubernetes.io/ingress.class: "gce"
+spec:
+  rules:
+    - http:
+        paths:
+          - path: /
+            pathType: Prefix
+            backend:
+              service:
+                name: tgi
+                port:
+                  number: 8080
diff --git a/examples/gke/deploy-paligemma-2-with-tgi/config/service.yaml b/examples/gke/deploy-paligemma-2-with-tgi/config/service.yaml
@@ -0,0 +1,12 @@
+apiVersion: v1
+kind: Service
+metadata:
+  name: tgi
+spec:
+  selector:
+    app: tgi
+  type: ClusterIP
+  ports:
+  - protocol: TCP
+    port: 8080
+    targetPort: 8080
diff --git a/examples/gke/deploy-paligemma-2-with-tgi/imgs/gke-cluster.png b/examples/gke/deploy-paligemma-2-with-tgi/imgs/gke-cluster.png
diff --git a/examples/gke/deploy-paligemma-2-with-tgi/imgs/gke-deployment-logs.png b/examples/gke/deploy-paligemma-2-with-tgi/imgs/gke-deployment-logs.png
diff --git a/examples/gke/deploy-paligemma-2-with-tgi/imgs/gke-deployment.png b/examples/gke/deploy-paligemma-2-with-tgi/imgs/gke-deployment.png
diff --git a/examples/gke/deploy-paligemma-2-with-tgi/imgs/gke-secrets.png b/examples/gke/deploy-paligemma-2-with-tgi/imgs/gke-secrets.png