Estudos empíricos dos métodos de balanceamento para a classificação

Lara, Daiany Francisca

dc.contributor.author	Lara, Daiany Francisca	pt_BR
dc.contributor.other	Ramirez Pozo, Aurora Trinidad, 1959-	pt_BR
dc.contributor.other	Universidade Federal do Paraná. Setor de Ciencias Exatas. Programa de Pós-Graduaçao em Informática	pt_BR
dc.date.accessioned	2013-09-11T12:20:31Z
dc.date.available	2013-09-11T12:20:31Z
dc.date.issued	2013-09-11
dc.identifier.uri	http://hdl.handle.net/1884/32025
dc.description.abstract	Resumo: A classificação tem o objetivo de rotular eventos e objetos de acordo com classes preestabelecidas. No entanto, alguns algoritmos perdem a capacidade de prediçao, quando o conjunto de dados possui uma distribuiçao desbalanceada entre suas classes. Para tentar resolver esse problema diversos metodos tem sido propostos na literatura. O presente trabalho tem como objetivo analisar e comparar os metodos mais conhecidos que se propoe a resolver o problema de classificação com bases desbalanceadas. Para isto, os metodos foram testados com os classificadores tradicionais como: Naive Bayes, Bayes Net, SMO, MultilayerPerceptron, J48 e JRip. As metricas de avaliaçao consideradas foram RecallP (verdadeiros positivos), RecallN (Verdadeiros negativos) e finalmente a taxa de acurada. Para realizar esta analise, os testes foram efetuados em 13 bases provenientes do UCI Machine Learning Repository e tambem em dois conjuntos de bases do "mundo real", que sao bases construídas com informações sobre defeitos em sistemas de Orientacao a Aspectos. O primeiro conjunto são cinco bases do repositório NASA Metrics Data Project, sendo elas cml, jml, kcl, kc2 e pcl. O segundo conjunto, sao três sistemas Orientados a Aspecto que sao: Ibatis, HW (HealthWatcher) e MM (MobileMedia). Os resultados demonstram que e possível melhorar a taxa de classificacao, mas e difícil dizer o metodo que se comporta melhor em bases do mundo real, pois tudo depende de como o classificador generaliza a base, principalmente com a presencça de dados ruidosos. As bases do UCI, apresentam melhores resultados em relaçao às bases de Engenharia de Software. Isto pode ser explicado em funcao da natureza dos dados reais que costumam conter mais ruídos.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language	Português	pt_BR
dc.subject	Mineração de dados (Computação)	pt_BR
dc.subject	Inteligencia artificial	pt_BR
dc.subject	Aprendizado do computador	pt_BR
dc.title	Estudos empíricos dos métodos de balanceamento para a classificação	pt_BR
dc.type	Dissertação	pt_BR

Arquivos deste item

Nome:: R - D - DAIANY FRANCISCA LARA.pdf
Tamanho:: 1.386Mb
Formato:: PDF

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Dissertações [350]

Mostrar registro simples