feat(inference): add vLLM inference #19

maxreciprocate · 2023-08-30T15:24:47Z

This PR adds vLLM inference in data parallel manner by launching multiple local servers in view of tensor_parallel_size

Usage:

from autocrit.inference import vLLMHook
# setup servers
model = vLLMHook("meta-llama/Llama-2-7b-hf", tensor_parallel_size=1, num_external_nodes=8)
model.generate(["..."], temperature=1, stop=["</s>"])
# stop servers
model.free()

Usage for reward models:

from autocrit.inference import RewardHook
model = RewardHook("reciprocate/rm_beluga-7b_hh-full")
scores = model.score(["..."])
model.free()

for models that don't prepend bos token

maxreciprocate added 12 commits August 30, 2023 18:18

feat(inference): add vLLM inference

1cbdf8e

refactor(inference): consistent vllm naming

4ead7a1

fix(inference): proper unloading of vllm servers

b0fefdb

feat: add multi-node vllm inference

0d8e17a

feat(inference): add vllm sbatch script

1b907e7

refactor(inference): update docs, keep hooks under the same api

ce95c25

fix(inference): heartbeat messages should be not empty

2a2b692

for models that don't prepend bos token

refactor(inference): num_nodes -> num_external_nodes

a352672

chore(inference): keep vllm logs in a separate folder

35a86f1

feat(inference): add RewardHook

19327c6

feat(inference): add openai hook

f9205ca

fix(vllm.sbatch): do ray stop & lower batch_size

b1a3693

maxreciprocate assigned PhungVanDuy Oct 13, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat(inference): add vLLM inference #19

feat(inference): add vLLM inference #19

maxreciprocate commented Aug 30, 2023 •

edited

Loading

feat(inference): add vLLM inference #19

Are you sure you want to change the base?

feat(inference): add vLLM inference #19

Conversation

maxreciprocate commented Aug 30, 2023 • edited Loading

maxreciprocate commented Aug 30, 2023 •

edited

Loading