大作业-videoChatWithLLM #533

otoTree · 2024-02-19T04:33:58Z

otoTree
Feb 19, 2024

模型：internlm xcomposer2-vl-7b

摄像头采集实时画面 ---->发送按钮点击，截取最后一帧发送，与文本合成prompt --->生成内容，返回文本

通过一帧图像的图文理解实现了伪视频对话

未来如果能够实现 流输入 同样也能实现视频对话

· 实现asr和tts功能

· 实现表情功能，具象化LLM

· 模型微调，降低模型功耗，加速模型生成速度

· 实在不行就炼一个新的视频生成模型（看好sora）

· 小黄（otoTree）