Replies: 2 comments 2 replies
-
举一个贼极端的例子,如果我用1T悟道去进行Lora增量预训练,rank为8的时候大约只有1%的trainable parameter(https://github.com/huggingface/peft/issues/41)。从直觉上来说是行不通的,那么如果执意要这么去做的话,是不是需要去调整lora rank 和alpha? |
Beta Was this translation helpful? Give feedback.
0 replies
-
这是一个开放问题。LoRA潜力有多大不好说。如果有超大规模的数据,适当增大rank是有必要的,但至于多少参数能容纳多少数据,这个没有直观的公式,需要实验论证。 |
Beta Was this translation helpful? Give feedback.
2 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
使用lora进行增量pretraining,对于增量的信息多少(in token)会有一个上限嘛?
以及使用一个专有领域的语料,在基座模型(没有sft过的)上增量训练后,如何评判训练效果呢?(通过loss/perplexity/几个epoch去判断)
Beta Was this translation helpful? Give feedback.
All reactions