Feature: 为 voiceflow 提供完整的 ws 的音频流解决方案 #5

cubxxw · 2024-10-22T04:07:58Z

I've searched for similar issues and couldn't find anything matching
I've discussed this feature request in the telepace Slack and got positive feedback

✅ Yes

我希望能满足我对 LLM 语音的基础能力，我的项目是分析是否有一些语音的开源项目，可以很轻松的实现实时翻译，支持集成多个三方的语音平台（实时翻译的云服务）或者是本地模型训练的实时翻译的 ws 以及 API，其中可以支持通过ws实时的将翻译的内容返回给前端

音频存储路径 (audio_url)：在系统中新增字段 audio_url，用于存储音频文件的访问路径。当用户录制完语音并通过 VoiceFlow 处理后，生成的音频文件将存储在 MinIO 中，并返回对应的 URL 供前端访问。

用户通过麦克风实时录音
- 用户点击前端界面上的麦克风按钮开始录音，录音数据通过 WebSocket 实时传递给 VoiceFlow 组件。
语音转文本（STT）
- VoiceFlow 接收到语音数据后，调用语音转文本（STT）服务，将用户的语音内容转换为文本，并将结果存储到数据库中。
与 LLM 交互
- 直接将语音对接现用支持音频的 LLM 进行交互，生成智能回复的文本内容。
文本转语音（TTS）
- LLM 返回的文本结果通过文本转语音（TTS）服务转换为语音，当系统检测到 minio_enabled 为 true 时，生成的音频文件将自动存储到 MinIO 中，并返回文件的 URL。
- 存储后，系统会返回该音频文件的 URL 地址（即 audio_url），并与会话相关联，记录在数据库中。
将 MinIO 地址返回给前端
- 后端将生成的 audio_url 返回给前端，前端可选择通过 WebSocket 或 API 获取此地址。用户在调用业务服务的过程中，前端可以使用该地址将 MinIO 中存储的音频文件发送出去或直接访问播放。
语音结果返回用户
- 前端接收到音频文件的 URL 后，通过音频播放器将 MinIO 中存储的语音文件播放给用户，实现语音交互的闭环。
幂等性保证
- 系统根据会话 ID 以及音频文件的 audio_url 进行幂等性处理，确保相同的请求不会被重复处理，提升系统的健壮性。

解耦开来，并且提供组件级别的能力

No response

No response

cubxxw self-assigned this Oct 22, 2024

cubxxw added the enhancement New feature or request label Oct 22, 2024

cubxxw added this to Telepace Planning Oct 22, 2024

github-project-automation bot moved this to Todo ⏰ in Telepace Planning Oct 22, 2024

cubxxw added this to the v0.5 milestone Oct 22, 2024

cubxxw mentioned this issue Oct 22, 2024

feat: add system design ws" #4

Merged

cubxxw closed this as completed in #4 Nov 1, 2024

github-project-automation bot moved this from Todo ⏰ to Done ✅ in Telepace Planning Nov 1, 2024

Provide feedback