关于多模态模型推理启用prefix cache #2823

zhuchen1109 · 2024-11-27T02:48:51Z

zhuchen1109
Nov 27, 2024

我使用internvl-8b模型，因为我的prompt system会很长，我想开启来做推理加速，现在开启prefix cache会有些问题，因为图片token只是padding，很大概率被match住，我想问下，如果我修改代码来保证image部分不被match，是不是prefix cache对于我这个任务来说是有效的？

lvhan028 · 2024-11-27T11:31:35Z

lvhan028
Nov 27, 2024
Maintainer

vlm 的情况下，暂未支持 prefix caching

2 replies

zhuchen1109 Nov 28, 2024
Author

我修改match的逻辑，只match图片之前的部分，也就是system部分的prompt，这样是可行的吗？如果这样不支持，是有什么原因吗？我理解vlm模型和llm模型一样，也是可以复用prefix部分的kvcache。

lzhangzz Nov 29, 2024
Maintainer

理论上这样是可行的

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于多模态模型推理启用prefix cache #2823

{{title}}

Replies: 1 comment 2 replies

{{title}}

{{title}}

{{title}}

Select a reply

关于多模态模型推理启用prefix cache #2823

zhuchen1109 Nov 27, 2024

Replies: 1 comment · 2 replies

lvhan028 Nov 27, 2024 Maintainer

zhuchen1109 Nov 28, 2024 Author

lzhangzz Nov 29, 2024 Maintainer

zhuchen1109
Nov 27, 2024

Replies: 1 comment 2 replies

lvhan028
Nov 27, 2024
Maintainer

zhuchen1109 Nov 28, 2024
Author

lzhangzz Nov 29, 2024
Maintainer