Um Método para Coleta, Tratamento de uma Base de Dados de Textos Literários em Língua Portuguesa para uso na Identificação de Autoria

Autores

  • Paulo Júnior Varela Universidade Tecnológica Federal do Paraná (UTFPR) Coordenação de Licenciatura em Informática - COLIN Francisco Beltrão - Paraná
  • Jivago Bulsing Schoot Universidade Tecnológica Federal do Paraná (UTFPR) Coordenação de Licenciatura em Informática - COLIN Francisco Beltrão - Paraná

DOI:

https://doi.org/10.14210/cotb.v0n0.pp.239-246

Resumo

A utilização do meio computacional para a resolução de casos de identificação de autoria tem crescido progressivamente em áreas como a computação, a linguística e o direito. Este artigo tem por objetivo apresentar um método para auxiliar no processo de coleta, tratamento e validação de base de dados para fins de testes de modelos computacionais. Como base de dados foram coletados, tratados e validados 100 amostras de textos de autores consagrados da literatura brasileira. Ao final a base de dados foi validada e com as características utilizadas tal base se mostrou robusta e confiável para utilização no processo de identificação de autoria de textos.

Downloads

Edição

Seção

Artigos Completos