In questa pagina raccogliamo una lista di modelli computazionali per la lingua italiana.
Modelli pretrained: si tratta di modelli generici che e' possibile specializzare a seconda del caso specifico.
- BART-IT 🖊️ E' un modello di analisi e generazione testuale in lingua italiana. Può essere utilizzato in vari contesti tipo sintesi automatica, transferimento dello stile (da informale a formale), etc.
- Fauno Un conversational LLM italiano che può essere utilizzato per una ampia gamma di tasks. Questo è possibile grazie alle sue doti di in-context learning o attraverso il fine-tuning dei pesi LoRA.
- IT5 Versione italiana di T5, un modello di generazione testuale per task sequence-to-sequence disponibile in 4 dimensioni (small, base, large, small-efficient). 50+ checkpoints di IT5 con fine-tuning su vari task di generazione (summarization, style transfer, headline generation) sono disponibili sull'Huggingface Hub
- Camoscio Versione italiana di Stanford Alpaca. E' un modello generativo addestrato a seguire le istruzioni in linguaggio naturale in italiano.
- Stambecco Versione italiana di Stanford Alpaca (GPT-4-LLM). E' un modello generativo addestrato a seguire le istruzioni in linguaggio naturale in italiano, addestrato su un dataset di istruzioni generato con GPT-4
Modelli fine-tuned: si tratta di modelli gia' specializzati ad un caso specifico
- HATE-ITA 🍕 E' un modello per il riconoscimento automatico (binario, si/no) di contenuto d'odio su Twitter.
- FEEL-IT E' un modello per inferire il "sentiment" (positivo o negativo) e le emozioni da un testo.
- setfit-italian-hate-speech Classificatore binario per riconoscere i contenuti d'odio nei post su facebook.
- sentence-bert-base-italian-uncased e sentence-bert-base-italian-xxl-cased sentence transformer utile per il clustering e la ricerca semantica sincrona, ad esempio FAQ search.
- mmarco-bert-base-italian-uncased sentence transformer con fine-tuning su MMARCO utile per la ricerca semantica asincrona.
- bert-italian-finetuned-ner modello per Named Entity Recognition, in particolare classifica i token {LOC, ORG, PER}, ha una sua versione per SpaCy
- electra-italian-xxl-cased-squad-it fine tuning di Electra per QA estrattivo. Fine tuning su SQUAD_it.
- CLIP Italian 🤌 E' un modello multimodale che unisce immagini e testi italiani. Si puo' usare, ad esempio, per cercare, data una descrizione testuale, l'immagine "piu' simile" in una collezione a quel testo.