O córpus inclui trechos de: livros-textos cuja lista completa é apresentada abaixo, notícias da Seção Para Seu Filho Ler (PSFL) do jornal Zero Hora que apresenta algumas notícias sobre o mesmo córpus do jornal do Zero Hora, mas escritas para crianças de 8 a 11 anos de idade , Exames do SAEB , Livros Digitais do Wikilivros em Português, Exames do Enem dos anos 2015, 2016 e 2017. Todo o material em português foi disponibilizado para avaliar a tarefa de complexidade textual (readability).
Esse corpus faz parte dos recursos de meu doutorado na área de Natural Language Processing, sendo realizado no Núcleo Interinstitucional de Linguística Computacional da USP de São Carlos. Esse trabalho foi orientado pela Profa. Sandra Maria Aluísio.
Disponível Creative Commons BY 4.0
É importante citar a fonte se fizer utilização total ou parcial do corpus.
@inproceedings{mgazzola19,
title={Predição da Complexidade Textual de Recursos Educacionais Abertos em Português},
author={Murilo Gazzola, Sidney Evaldo Leal, Sandra Maria Aluisio},
booktitle={Proceedings of the Brazilian Symposium in Information and Human Language Technology},
year={2019}
}