Skip to content

Latest commit

 

History

History

datasets

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 

Datasets

In questa pagina raccogliamo una lista di dataset per la lingua italiana.

Pretraining

I seguenti dataset possono essere usati per allenare modelli del linguaggio generici (pretraining) prima del fine-tuning su task specifici

  • Clean mc4-IT è un subset della porzione italiana del web crawl mc4 con procedure di filtering aggiuntive, contenente un totale di circa 103 milioni di documenti e 41 miliardi di parole.

Fine-tuning

I seguenti dataset possono essere utilizzati per addestrare modelli del linguaggio a eseguire task specifici

  • CHANGE-IT contiene 152'000 di titoli e articoli di giornale estratti dai quotidiani Il Giornale e La Repubblica, e può essere utilizzato per task di headline generation e style transfer.

  • Il Corpus Italiano di Accettabilità Linguistica ItaCoLA include quasi 10'000 frasi con annotazioni di accettabilità linguistica aggiunte dagli autori, ed un subset aggiuntivo che include annotazioni di accettabilità più granulari riguardanti vari fenomeni linguistici.