Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

train_sft vs train_sft_seq2seq #33

Open
dtrckd opened this issue Oct 13, 2023 · 2 comments
Open

train_sft vs train_sft_seq2seq #33

dtrckd opened this issue Oct 13, 2023 · 2 comments

Comments

@dtrckd
Copy link

dtrckd commented Oct 13, 2023

Salutation vigognaise et vigonais,

Je me demande avec beaucoup de curiosité quelle sont les différences entre les deux approche de finetuning avec ou sans seq2seq transformation ? (train/train_sft.py et train/train_sft_seq2seq.py)

Avez-vous des entrées, intuition et ou benchmark qui discutent les différences entre les deux ?

@bofenghuang
Copy link
Owner

Le train_sft_seq2seq.py est initialement fait pour élargir les expérimentations, passant des modèles decoder-only comme llama aux encoder-decoder tel que le T5.

A présent, on se concentre davantage sur les modèles decoder-only, en raison de la disponibilité de modèles pré-entraînés plus puissants dans cette catégorie.

@dtrckd
Copy link
Author

dtrckd commented Oct 17, 2023

Ok, je vois merci pour la réponse :)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants