基于realtime-quickstart-react的DEMO在COZE平台上做了一个智能体，如何实现视频识别和工具调用 #110

l1985q · 2025-02-23T16:54:45Z

实在找不到真人问这个问题了。我使用realtime-quickstart-react配套的视频做了一个智能体，选择视觉理解的基础模型，能够实现对话和视频信号的理解，但是加上其它工作流调用就是不成功。如果把基础模型换成豆包工具调用就能正常调用工作流，但视频理解就不能用了，如何实现两者都能用呢？

jackshen3102 · 2025-02-24T03:58:47Z

实在找不到真人问这个问题了。我使用realtime-quickstart-react配套的视频做了一个智能体，选择视觉理解的基础模型，能够实现对话和视频信号的理解，但是加上其它工作流调用就是不成功。如果把基础模型换成豆包工具调用就能正常调用工作流，但视频理解就不能用了，如何实现两者都能用呢？

Provide feedback