Tps-F
diff --git a/‎.gitignore
+3 b/‎.gitignore
+3
diff --git a/‎examples/benchmark/main.py
+82 b/‎examples/benchmark/main.py
+82
diff --git a/‎examples/img2img/main.py
+53 b/‎examples/img2img/main.py
+53
diff --git a/‎examples/mov2mov/main.py
+85 b/‎examples/mov2mov/main.py
+85
diff --git a/‎examples/screen/main.py
+109 b/‎examples/screen/main.py
+109
diff --git a/‎examples/screen/requirements.txt
+3 b/‎examples/screen/requirements.txt
+3
diff --git a/‎examples/screen/socks.py
+27 b/‎examples/screen/socks.py
+27
@@ -1,5 +1,8 @@
 # https://github.com/github/gitignore/blob/main/Python.gitignore
 
+./model.safetensors
+./model.ckpt
+
 # Byte-compiled / optimized / DLL files
 __pycache__/
 *.py[cod]
 
@@ -0,0 +1,82 @@
+import io
+from typing import *
+
+import fire
+import PIL.Image
+import requests
+import torch
+from diffusers import AutoencoderTiny, LCMScheduler, StableDiffusionPipeline
+from tqdm import tqdm
+
+from streamdiffusion import StreamDiffusion
+from streamdiffusion.image_utils import pil2tensor, postprocess_image
+
+
+def download_image(url: str):
+    response = requests.get(url)
+    image = PIL.Image.open(io.BytesIO(response.content))
+    return image
+
+
+def run(
+    wamup: int = 10, iterations: int = 50, acceleration: Optional[Literal["xformers", "sfast", "tensorrt"]] = None
+):
+    pipe: StableDiffusionPipeline = StableDiffusionPipeline.from_single_file("./model.safetensors").to(
+        device=torch.device("cuda"),
+        dtype=torch.float16,
+    )
+    pipe.scheduler = LCMScheduler.from_config(pipe.scheduler.config)
+    pipe.vae = AutoencoderTiny.from_pretrained("madebyollin/taesd").to(device=pipe.device, dtype=pipe.dtype)
+    pipe.load_lora_weights("latent-consistency/lcm-lora-sdv1-5")
+    pipe.fuse_lora()
+
+    stream = StreamDiffusion(
+        pipe,
+        [32, 45],
+        torch_dtype=torch.float16,
+    )
+
+    if acceleration == "xformers":
+        pipe.enable_xformers_memory_efficient_attention()
+    elif acceleration == "tensorrt":
+        from streamdiffusion.acceleration.tensorrt import accelerate_with_tensorrt
+
+        stream = accelerate_with_tensorrt(stream)
+    elif acceleration == "sfast":
+        from streamdiffusion.acceleration.sfast import accelerate_with_stable_fast
+
+        stream = accelerate_with_stable_fast(stream)
+
+    stream.prepare(
+        "Girl with panda ears wearing a hood",
+        num_inference_steps=50,
+        generator=torch.manual_seed(2),
+    )
+
+    image = download_image("https://github.com/ddpn08.png").resize((512, 512))
+    input_tensor = pil2tensor(image)
+
+    # warmup
+    for _ in range(wamup):
+        stream(input_tensor.detach().clone().to(device=stream.device, dtype=stream.dtype))
+
+    results = []
+
+    for _ in tqdm(range(iterations)):
+        start = torch.cuda.Event(enable_timing=True)
+        end = torch.cuda.Event(enable_timing=True)
+
+        start.record()
+        x_output = stream(input_tensor.detach().clone().to(device=stream.device, dtype=stream.dtype))
+        postprocess_image(x_output, output_type="pil")[0]
+        end.record()
+
+        torch.cuda.synchronize()
+        results.append(start.elapsed_time(end))
+
+    print(f"Average time: {sum(results) / len(results)}ms")
+    print(f"Average FPS: {1000 / (sum(results) / len(results))}")
+
+
+if __name__ == "__main__":
+    fire.Fire(run)
@@ -0,0 +1,53 @@
+import os
+from typing import *
+
+import fire
+import PIL.Image
+import torch
+from diffusers import AutoencoderTiny, LCMScheduler, StableDiffusionPipeline
+
+from streamdiffusion import StreamDiffusion
+from streamdiffusion.image_utils import pil2tensor, postprocess_image
+
+
+def main(input: str, output: str, scale: int = 1):
+    pipe: StableDiffusionPipeline = StableDiffusionPipeline.from_single_file("./model.safetensors").to(
+        device=torch.device("cuda"),
+        dtype=torch.float16,
+    )
+    pipe.scheduler = LCMScheduler.from_config(pipe.scheduler.config)
+    pipe.vae = AutoencoderTiny.from_pretrained("madebyollin/taesd").to(device=pipe.device, dtype=pipe.dtype)
+    pipe.load_lora_weights("latent-consistency/lcm-lora-sdv1-5")
+    pipe.fuse_lora()
+    pipe.enable_xformers_memory_efficient_attention()
+
+    input_image = PIL.Image.open(os.path.join(input))
+    width = int(input_image.width * scale)
+    height = int(input_image.height * scale)
+
+    stream = StreamDiffusion(
+        pipe,
+        [35, 45],
+        torch_dtype=torch.float16,
+        width=width,
+        height=height,
+    )
+    stream.prepare(
+        "Girl with panda ears wearing a hood",
+        num_inference_steps=50,
+        generator=torch.manual_seed(2),
+    )
+
+    input_image = input_image.resize((width, height))
+    input_tensor = pil2tensor(input_image)
+
+    for _ in range(stream.batch_size - 1):
+        stream(input_tensor.detach().clone().to(device=stream.device, dtype=stream.dtype))
+
+    output_x = stream(input_tensor.detach().clone().to(device=stream.device, dtype=stream.dtype))
+    output_image = postprocess_image(output_x, output_type="pil")[0]
+    output_image.save(output)
+
+
+if __name__ == "__main__":
+    fire.Fire(main)
@@ -0,0 +1,85 @@
+import os
+from typing import *
+
+import ffmpeg
+import fire
+import PIL.Image
+import torch
+from diffusers import AutoencoderTiny, LCMScheduler, StableDiffusionPipeline
+from tqdm import tqdm
+
+from streamdiffusion import StreamDiffusion
+from streamdiffusion.acceleration.sfast import accelerate_with_stable_fast
+from streamdiffusion.image_utils import pil2tensor, postprocess_image
+
+
+def extract_frames(video_path: str, output_dir: str):
+    os.makedirs(output_dir, exist_ok=True)
+    ffmpeg.input(video_path).output(f"{output_dir}/%04d.png").run()
+
+
+def get_frame_rate(video_path: str):
+    probe = ffmpeg.probe(video_path)
+    video_info = next(s for s in probe["streams"] if s["codec_type"] == "video")
+    return int(video_info["r_frame_rate"].split("/")[0])
+
+
+def main(input: str, output: str, scale: int = 1):
+    if os.path.isdir(output):
+        raise ValueError("Output directory already exists")
+    frame_rate = get_frame_rate(input)
+    extract_frames(input, os.path.join(output, "frames"))
+    images = sorted(os.listdir(os.path.join(output, "frames")))
+
+    pipe: StableDiffusionPipeline = StableDiffusionPipeline.from_single_file("./model.safetensors").to(
+        device=torch.device("cuda"),
+        dtype=torch.float16,
+    )
+    pipe.scheduler = LCMScheduler.from_config(pipe.scheduler.config)
+    pipe.vae = AutoencoderTiny.from_pretrained("madebyollin/taesd").to(device=pipe.device, dtype=pipe.dtype)
+    pipe.load_lora_weights("latent-consistency/lcm-lora-sdv1-5")
+    pipe.fuse_lora()
+
+    sample_image = PIL.Image.open(os.path.join(output, "frames", images[0]))
+    width = int(sample_image.width * scale)
+    height = int(sample_image.height * scale)
+
+    stream = StreamDiffusion(
+        pipe,
+        [40, 49],
+        torch_dtype=torch.float16,
+        width=width,
+        height=height,
+    )
+    stream = accelerate_with_stable_fast(stream)
+    stream.prepare(
+        "Girl with panda ears wearing a hood",
+        num_inference_steps=50,
+        generator=torch.manual_seed(2),
+    )
+
+    for _ in range(stream.batch_size - 1):
+        stream(
+            pil2tensor(sample_image.resize((width, height)))
+            .detach()
+            .clone()
+            .to(device=stream.device, dtype=stream.dtype)
+        )
+
+    for image_path in tqdm(images + [images[0]] * (stream.batch_size - 1)):
+        pil_image = PIL.Image.open(os.path.join(output, "frames", image_path))
+        pil_image = pil_image.resize((width, height))
+        input_tensor = pil2tensor(pil_image)
+        output_x = stream(input_tensor.detach().clone().to(device=stream.device, dtype=stream.dtype))
+        output_image = postprocess_image(output_x, output_type="pil")[0]
+        output_image.save(os.path.join(output, image_path))
+
+    output_video_path = os.path.join(output, "output.mp4")
+
+    ffmpeg.input(os.path.join(output, "%04d.png"), framerate=frame_rate).output(
+        output_video_path, crf=17, pix_fmt="yuv420p", vcodec="libx264"
+    ).run()
+
+
+if __name__ == "__main__":
+    fire.Fire(main)
@@ -0,0 +1,109 @@
+import io
+import multiprocessing as mp
+import threading
+import time
+from time import sleep
+from typing import *
+
+import fire
+import mss
+import PIL.Image
+import torch
+from diffusers import AutoencoderTiny, LCMScheduler, StableDiffusionPipeline
+from matplotlib import pyplot as plt
+from socks import UDP, receive_udp_data
+
+from streamdiffusion import StreamDiffusion
+from streamdiffusion.acceleration.tensorrt import accelerate_with_tensorrt
+from streamdiffusion.image_utils import pil2tensor, postprocess_image
+
+
+input = None
+
+
+def screen(
+    height: int = 512,
+    width: int = 512,
+    monitor: Dict[str, int] = {"top": 300, "left": 200, "width": 512, "height": 512},
+):
+    global input
+    with mss.mss() as sct:
+        while True:
+            img = sct.grab(monitor)
+            img = PIL.Image.frombytes("RGB", img.size, img.bgra, "raw", "BGRX")
+            img.resize((height, width))
+            input = pil2tensor(img)
+
+
+def result_window(server_ip: str, server_port: int):
+    plt.ion()
+    fig, ax = plt.subplots(figsize=(8, 8))
+
+    while True:
+        received_data = receive_udp_data(server_ip, server_port)
+        images = PIL.Image.open(io.BytesIO(received_data))
+        ax.clear()
+        ax.imshow(images)
+        ax.axis("off")
+        plt.pause(0.00001)
+
+
+def run(address: str = "127.0.0.1", port: int = 8080):
+    pipe: StableDiffusionPipeline = StableDiffusionPipeline.from_single_file("./model.safetensors").to(
+        device=torch.device("cuda")
+    )
+    pipe.scheduler = LCMScheduler.from_config(pipe.scheduler.config)
+    pipe.vae = AutoencoderTiny.from_pretrained("madebyollin/taesd").to(device=pipe.device, dtype=pipe.dtype)
+    pipe.load_lora_weights("latent-consistency/lcm-lora-sdv1-5")
+    pipe.fuse_lora()
+
+    stream = StreamDiffusion(
+        pipe,
+        [32, 45],
+    )
+    stream = accelerate_with_tensorrt(stream, "./engines", max_batch_size=2)
+    stream.prepare(
+        "Girl with panda ears wearing a hood",
+        num_inference_steps=50,
+        generator=torch.manual_seed(2),
+    )
+
+    output_window = mp.Process(target=result_window, args=(address, port))
+    input_screen = threading.Thread(target=screen)
+
+    output_window.start()
+    print("Waiting for output window to start...")
+    time.sleep(5)
+    input_screen.start()
+
+    udp = UDP(address, port)
+
+    main_thread_time_cumulative = 0
+    lowpass_alpha = 0.1
+
+    while True:
+        if input is None:
+            sleep(0.01)
+            continue
+
+        start = torch.cuda.Event(enable_timing=True)
+        end = torch.cuda.Event(enable_timing=True)
+
+        start.record()
+
+        x_output = stream(input.to(device=stream.device, dtype=stream.dtype))
+        output_images = postprocess_image(x_output, output_type="pil")[0]
+
+        udp.send_udp_data(output_images)
+        end.record()
+        torch.cuda.synchronize()
+        main_thread_time = start.elapsed_time(end) / 1000
+        main_thread_time_cumulative = (
+            lowpass_alpha * main_thread_time + (1 - lowpass_alpha) * main_thread_time_cumulative
+        )
+        fps = 1 / main_thread_time_cumulative
+        print(f"fps: {fps}, main_thread_time: {main_thread_time_cumulative}")
+
+
+if __name__ == "__main__":
+    fire.Fire(run)
@@ -0,0 +1,3 @@
+matplotlib
+pillow
+mss
@@ -0,0 +1,27 @@
+import io
+import socket
+from typing import *
+
+
+class UDP:
+    def __init__(self, ip, port):
+        self.ip = ip
+        self.port = port
+        self.sock = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
+
+    def __del__(self):
+        self.sock.close()
+
+    def send_udp_data(self, images):
+        img_byte_arr = io.BytesIO()
+        images.save(img_byte_arr, format="JPEG")
+        img_byte_arr = img_byte_arr.getvalue()
+        self.sock.sendto(img_byte_arr, (self.ip, self.port))
+
+
+def receive_udp_data(ip, port):
+    sock = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
+    sock.bind((ip, port))
+    data, addr = sock.recvfrom(65535)  # 65535 is the maximum UDP packet size
+    sock.close()
+    return data