Open AI 的GPT系列模型
GPT模型的关键点:
- 采用了无监督预训练+下游任务微调(整个模型微调)的模式。不同任务微调的方式不同。
- 采用Transformer网络结构建立语言模型,相比bi-lstm可以更好的capture长程信息。
- fine-tune过程中也用了LM(Language Model)作为auxiliary objective。
reference:
GPT: Improving Language Understanding by Generative Pre-Training
GPT模型的基本结构: