README.md

Modelli

In questa pagina raccogliamo una lista di modelli computazionali per la lingua italiana.

Modelli pretrained: si tratta di modelli generici che e' possibile specializzare a seconda del caso specifico.

BART-IT 🖊️ E' un modello di analisi e generazione testuale in lingua italiana. Può essere utilizzato in vari contesti tipo sintesi automatica, transferimento dello stile (da informale a formale), etc.
Fauno Un conversational LLM italiano che può essere utilizzato per una ampia gamma di tasks. Questo è possibile grazie alle sue doti di in-context learning o attraverso il fine-tuning dei pesi LoRA.
IT5 Versione italiana di T5, un modello di generazione testuale per task sequence-to-sequence disponibile in 4 dimensioni (small, base, large, small-efficient). 50+ checkpoints di IT5 con fine-tuning su vari task di generazione (summarization, style transfer, headline generation) sono disponibili sull'Huggingface Hub
Camoscio Versione italiana di Stanford Alpaca. E' un modello generativo addestrato a seguire le istruzioni in linguaggio naturale in italiano.
Stambecco Versione italiana di Stanford Alpaca (GPT-4-LLM). E' un modello generativo addestrato a seguire le istruzioni in linguaggio naturale in italiano, addestrato su un dataset di istruzioni generato con GPT-4

Modelli fine-tuned: si tratta di modelli gia' specializzati ad un caso specifico

HATE-ITA 🍕 E' un modello per il riconoscimento automatico (binario, si/no) di contenuto d'odio su Twitter.
FEEL-IT E' un modello per inferire il "sentiment" (positivo o negativo) e le emozioni da un testo.
setfit-italian-hate-speech Classificatore binario per riconoscere i contenuti d'odio nei post su facebook.
sentence-bert-base-italian-uncased e sentence-bert-base-italian-xxl-cased sentence transformer utile per il clustering e la ricerca semantica sincrona, ad esempio FAQ search.
mmarco-bert-base-italian-uncased sentence transformer con fine-tuning su MMARCO utile per la ricerca semantica asincrona.
bert-italian-finetuned-ner modello per Named Entity Recognition, in particolare classifica i token {LOC, ORG, PER}, ha una sua versione per SpaCy
electra-italian-xxl-cased-squad-it fine tuning di Electra per QA estrattivo. Fine tuning su SQUAD_it.

CLIP Italian 🤌 E' un modello multimodale che unisce immagini e testi italiani. Si puo' usare, ad esempio, per cercare, data una descrizione testuale, l'immagine "piu' simile" in una collezione a quel testo.