Trabalho final em Fundamentos de Ciência de Dados - PPGI/UFRJ

Professores:

Sergio Serra	Jorge Zavaleta
serra@pet-si.ufrrj.br	zavaleta@pet-si.ufrrj.br

Processamento de dados em português brasileiro

Este estudo analisa comparativamente a aplicação de lematizadores no processamento sintático de textos em português brasileiro. Neste trabalho, analisamos a aplicação de três lematizadores disponíveis para o português: (i) o modelo de linguagem da biblioteca spaCy; (ii) o método baseado em dependências universais do pacote simplemma; e (iii) a abordagem por documentos lexicográficos (PortilexiconUD: Projeto POeTiSA). O banco de dados utilizado nessa análise pode ser encontrado em D&G UFF.

Mariana Gonçalves da Costa [Programa de Pós-Graduação em Informática/UFRJ]
Last updated: 19 January 2025 Code produced in Python 3.10 - Google Colab

Arquivos disponibilizados

Dataset em txt
Dicionário de stopwords em json
Arquivo pré-processado da base conjugada e da base Rio Grande com e sem stopwords
Lematização da base conjugada e da base Rio Grande pelos três lematizadores

Imagens disponibilizadas

Grafo de proveniência do pré-processamento dos dados
Grafo de proveniência da lematização

Notebooks disponibilizados

Tratamento de dados do português
Aplicação do prov-model
Treinamento de lematizador spaCy (em andamento)

Autoria:

Mariana Gonçalves da Costa, Sergio Serra e Jorge Zavaleta
Contato: marianag.costta@gmail.com
Página: https://www.linkedin.com/in/mariana-gdacosta/

Artigo: Decifrando dados linguísticos: análise comparativa dos lematizadores para língua portuguesa

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Trabalho final em Fundamentos de Ciência de Dados - PPGI/UFRJ

Professores:

Processamento de dados em português brasileiro

Arquivos disponibilizados

Imagens disponibilizadas

Notebooks disponibilizados

Autoria:

Files

README.md

Latest commit

History

README.md

File metadata and controls

Trabalho final em Fundamentos de Ciência de Dados - PPGI/UFRJ

Professores:

Processamento de dados em português brasileiro

Arquivos disponibilizados

Imagens disponibilizadas

Notebooks disponibilizados

Autoria: