长input下coredump #746

frankxyy · 2023-11-23T10:16:00Z

你好，我使用main分支较新的代码，#715 ，同时cherrypick了一个更新的commit #738 。起了1个http client串行请求，prompt长度1k-8k。

出现coredump:

看起来不是OOM。

gdb core file结果:

对应现在github main分支代码这一行: https://github.com/InternLM/lmdeploy/blob/main/src/turbomind/models/llama/LlamaBatch.cc#L488C2-L488C2

frankxyy · 2023-11-23T12:01:52Z

@lzhangzz hi，你这能复现吗？如果复现不了，我可以把prompt发你哈

frankxyy · 2023-11-23T12:07:41Z

coredump时，desc.size() 我打印出来，是0

lzhangzz · 2023-11-23T12:20:19Z

应该是有个request太长被reject了导致出现了空batch，可以试试 #747

frankxyy · 2023-11-23T12:54:58Z

@lzhangzz 目前不再复现了

frankxyy · 2023-11-23T13:28:49Z

@lzhangzz
出现了新的问题，长input返回空：

frankxyy · 2023-11-23T13:34:54Z

@lzhangzz
感觉不是 #747 的修改造成的，像是我合了 #738 后，就出现这个问题了

lzhangzz · 2023-11-23T14:03:29Z

这看起来是history+prompt长度超过session_len，直接reject了

frankxyy · 2023-11-23T14:06:37Z

@lzhangzz

直接reject，finish_reason应该填length吧，但实际返回的finish_reason是none

frankxyy · 2023-11-23T14:18:39Z

@lzhangzz 应该不是你这修改的原因，我回滚了还是有报错，可能是我哪边改错了。。。

lzhangzz · 2023-11-23T14:18:53Z

具体还要看turbomind的log，里面算的可能会有点不同。

还有种情况是在特别长的context下模型可能会直接输出eoa，这还要看你现在NTK alpha是怎么算的

frankxyy · 2023-11-23T16:20:38Z

具体还要看turbomind的log，里面算的可能会有点不同。

还有种情况是在特别长的context下模型可能会直接输出eoa，这还要看你现在NTK alpha是怎么算的

查到原因了。。我把kv cache占比调低，导致session_len被截短了

lvhan028 assigned lzhangzz Nov 23, 2023

frankxyy changed the title ~~并发下coredump~~ 长input下coredump Nov 23, 2023

lzhangzz mentioned this issue Nov 23, 2023

[Fix] Skip empty batch #747

Merged

lvhan028 closed this as completed Nov 24, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

长input下coredump #746

长input下coredump #746

frankxyy commented Nov 23, 2023 •

edited

Loading

frankxyy commented Nov 23, 2023

frankxyy commented Nov 23, 2023 •

edited

Loading

lzhangzz commented Nov 23, 2023

frankxyy commented Nov 23, 2023

frankxyy commented Nov 23, 2023

frankxyy commented Nov 23, 2023 •

edited

Loading

lzhangzz commented Nov 23, 2023

frankxyy commented Nov 23, 2023 •

edited

Loading

frankxyy commented Nov 23, 2023

lzhangzz commented Nov 23, 2023 •

edited

Loading

frankxyy commented Nov 23, 2023

长input下coredump #746

长input下coredump #746

Comments

frankxyy commented Nov 23, 2023 • edited Loading

frankxyy commented Nov 23, 2023

frankxyy commented Nov 23, 2023 • edited Loading

lzhangzz commented Nov 23, 2023

frankxyy commented Nov 23, 2023

frankxyy commented Nov 23, 2023

frankxyy commented Nov 23, 2023 • edited Loading

lzhangzz commented Nov 23, 2023

frankxyy commented Nov 23, 2023 • edited Loading

frankxyy commented Nov 23, 2023

lzhangzz commented Nov 23, 2023 • edited Loading

frankxyy commented Nov 23, 2023

frankxyy commented Nov 23, 2023 •

edited

Loading

frankxyy commented Nov 23, 2023 •

edited

Loading

frankxyy commented Nov 23, 2023 •

edited

Loading

frankxyy commented Nov 23, 2023 •

edited

Loading

lzhangzz commented Nov 23, 2023 •

edited

Loading