Skip to content

Latest commit

 

History

History
47 lines (35 loc) · 2.63 KB

File metadata and controls

47 lines (35 loc) · 2.63 KB

image

Trabalho final em Fundamentos de Ciência de Dados - PPGI/UFRJ

Professores:

Sergio Serra Jorge Zavaleta
[email protected] [email protected]

Processamento de dados em português brasileiro

Este estudo analisa comparativamente a aplicação de lematizadores no processamento sintático de textos em português brasileiro. Neste trabalho, analisamos a aplicação de três lematizadores disponíveis para o português: (i) o modelo de linguagem da biblioteca spaCy; (ii) o método baseado em dependências universais do pacote simplemma; e (iii) a abordagem por documentos lexicográficos (PortilexiconUD: Projeto POeTiSA). O banco de dados utilizado nessa análise pode ser encontrado em D&G UFF.

Mariana Gonçalves da Costa [Programa de Pós-Graduação em Informática/UFRJ]
Last updated: 19 January 2025 Code produced in Python 3.10 - Google Colab


Arquivos disponibilizados

  • Dataset em txt
  • Dicionário de stopwords em json
  • Arquivo pré-processado da base conjugada e da base Rio Grande com e sem stopwords
  • Lematização da base conjugada e da base Rio Grande pelos três lematizadores

Imagens disponibilizadas

  • Grafo de proveniência do pré-processamento dos dados Pré-processamento_Corpus_DeG

  • Grafo de proveniência da lematização Lematizacao Rio Grande


Notebooks disponibilizados


Autoria:


Artigo: Decifrando dados linguísticos: análise comparativa dos lematizadores para língua portuguesa