RuntimeOptimze-已有模型选择和微调新模型 #86

rm-rf-me · 2024-06-17T10:32:17Z

ChainStream未来将会运行一个体积庞大的Stream flow graph，其单位时间内的计算量和长期开机的累积计算量都是巨大的，会带来大量的token fee开销。目前已有大量不同类型性能的LLM，但对于用户开发者来讲，选用的LLM只需要满足其需求即可，但往往处于性能最大化的考虑选择最强最贵的模型，从而带来能多额外开销。

ChainStream希望从系统角度完成token fee最优化的问题。主要包括两个部分，定制模型和模型选择：

定制模型：针对某确定task，在一段数据积累后尝试微调一个定制LLM。
模型选择：云端最强模型、云端普通模型、本地模型、定制模型四选一，在开销和效果中找trade off。

rm-rf-me · 2024-06-17T10:46:03Z

当前系统主要支持这几种模态：文本、视觉、语音。其中语音大多为转录+语音合成pipline构成，所以识别模型和语音合成模型单独选择。

那么模型类别和其选择空间大概是：

纯文本模型：云端强、云端弱、本地、微调。
文本+视觉模型：云端强、云端弱、本地、微调。
原生文本+视觉+语音模型：云端强、云端弱、本地、微调。
pipline文本+语音模型：文本模型类别*语音模型类别。

开发者只需要选择模型的类别，Runtime自动在其选择空间中做出选择。

具体思路为，Runtime中统一监控所有LLM实例，记录task在该LLM实例上的query记录。在前期为每个query并行query所有类别模型输出并做比对和选择，根据task稳定性和query相似度做选择。后期尽在异常时发起多个模型query重新选择。此外，在积累一定数据量后尝试微调一个LLM，并在选择时考虑该模型。

rm-rf-me added development 包含潜在创新点搞成了大概有学术价值 labels Jun 17, 2024

rm-rf-me self-assigned this Jun 17, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

RuntimeOptimze-已有模型选择和微调新模型 #86

RuntimeOptimze-已有模型选择和微调新模型 #86

rm-rf-me commented Jun 17, 2024

rm-rf-me commented Jun 17, 2024

RuntimeOptimze-已有模型选择和微调新模型 #86

RuntimeOptimze-已有模型选择和微调新模型 #86

Comments

rm-rf-me commented Jun 17, 2024

rm-rf-me commented Jun 17, 2024