We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Pretraining 的收敛指标没有横向对比的可能;ELECTRA 核心优势是在下游 finetuning 任务上的表现,较 bert/roberta 收敛加快。中文上是否观察到这个现象呢?
The text was updated successfully, but these errors were encountered:
ELECTRA的核心优势在pretraing的时候 disc能够 利用所有token(比mlm只用15%的数据利用率更高),卖点主要在 预训练(更少的迭代次数 达到 相当的结果)(参加table-6: electra 在不同的模型大小下,迭代次数 少于 通常的 roberta和bert 以及table2: train flop相当的情况下,效果更好; train flop为roberta的四分之一,效果基本持平或者更好) 下游微调 收敛快慢无所谓(lr大一些 epoch少一点,lr小,epoch大一些,反正 拿dev 做验证就行)
Sorry, something went wrong.
而且,electra pretrain的指标很重要,如果 disc 的 指标上不去,基本微调的效果也很差
我表述不够清楚:不同 steps 下,Pretraining 模型的金标准是看该 checkpoint 在 finetuning 任务上的效果。ELECTRA 通过 100% label 学习,宣称Pretraining阶段同 step 下的 checkpoint,在下游 finetuning 上效果更好。因此,我的问题是,tiny 模型是否观察到这个?
这个还没有对比过,我可以上传 robert-tiny、electra-tiny 的中间checkpoint 用于 验证,我个人 时间、资源 限制 没有 做过类似的实验
No branches or pull requests
Pretraining 的收敛指标没有横向对比的可能;ELECTRA 核心优势是在下游 finetuning 任务上的表现,较 bert/roberta 收敛加快。中文上是否观察到这个现象呢?
The text was updated successfully, but these errors were encountered: