We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
ChainStream未来将会运行一个体积庞大的Stream flow graph,其单位时间内的计算量和长期开机的累积计算量都是巨大的,会带来大量的token fee开销。目前已有大量不同类型性能的LLM,但对于用户开发者来讲,选用的LLM只需要满足其需求即可,但往往处于性能最大化的考虑选择最强最贵的模型,从而带来能多额外开销。
ChainStream希望从系统角度完成token fee最优化的问题。主要包括两个部分,定制模型和模型选择:
The text was updated successfully, but these errors were encountered:
当前系统主要支持这几种模态:文本、视觉、语音。其中语音大多为转录+语音合成pipline构成,所以识别模型和语音合成模型单独选择。
那么模型类别和其选择空间大概是:
开发者只需要选择模型的类别,Runtime自动在其选择空间中做出选择。
具体思路为,Runtime中统一监控所有LLM实例,记录task在该LLM实例上的query记录。在前期为每个query并行query所有类别模型输出并做比对和选择,根据task稳定性和query相似度做选择。后期尽在异常时发起多个模型query重新选择。此外,在积累一定数据量后尝试微调一个LLM,并在选择时考虑该模型。
Sorry, something went wrong.
rm-rf-me
No branches or pull requests
ChainStream未来将会运行一个体积庞大的Stream flow graph,其单位时间内的计算量和长期开机的累积计算量都是巨大的,会带来大量的token fee开销。目前已有大量不同类型性能的LLM,但对于用户开发者来讲,选用的LLM只需要满足其需求即可,但往往处于性能最大化的考虑选择最强最贵的模型,从而带来能多额外开销。
ChainStream希望从系统角度完成token fee最优化的问题。主要包括两个部分,定制模型和模型选择:
The text was updated successfully, but these errors were encountered: