Show simple item record

dc.contributor.authorSouza, Rodrigo Clemente Thom dept_BR
dc.contributor.otherSteiner, Maria Teresinha Arns, 1957-pt_BR
dc.contributor.otherCoelho, Leandro dos Santospt_BR
dc.contributor.otherUniversidade Federal do Paraná. Setor de Tecnologia. Programa de Pós-Graduaçao em Métodos Numéricos em Engenhariapt_BR
dc.date.accessioned2013-08-30T18:08:03Z
dc.date.available2013-08-30T18:08:03Z
dc.date.issued2013-08-30
dc.identifier.urihttp://hdl.handle.net/1884/31927
dc.description.abstractResumo: A classificação de padrões é um problema de aprendizado supervisionado do campo da ciência conhecido como Reconhecimento de Padrões (RP), através do qual se deseja discriminar instâncias de dados em diferentes classes. A solução para este problema é obtida por meio de algoritmos (classificadores) que buscam por padrões de relacionamento entre classes em casos conhecidos (treinamento), usando tais relações para classificar casos desconhecidos (teste). O desempenho em termos de acurácia preditiva dos algoritmos que se propõem a realizar tal tarefa depende muito da qualidade e dos tipos de dados contidos nas bases. Visando melhorar a qualidade dos dados e dar tratamento adequado aos tipos de dados utilizados, o presente trabalho faz uso do processo de Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery in Databases; KDD), no qual a classificação é uma das tarefas da etapa conhecida como Mineração de Dados (Data Mining; DM). As etapas aqui aplicadas antes da classificação são a seleção de atributos wrapper e um processo de transformação de atributos baseado em Análise Geométrica de Dados (Geometric Data Analysis; GDA). Para a seleção de atributos é proposta uma nova técnica baseada em Algoritmo de Estimação de Distribuição (Estimation of Distribution Algorithm; EDA) e em Algoritmos Culturais (AC) batizada de Belief-Based Incremental Learning (BBIL). Para a transformação de atributos é aqui proposta a utilização de uma alternativa à clássica Análise de Componentes Principais (Principal Component Analysis; PCA) para lidar especificamente com dados nominais: a Análise de Correspondência Múltipla (Multiple Correspondence Analysis; MCA). Na etapa de DM, de fato, faz-se a aplicação de dois tradicionais classificadores da área de RP, Naïve Bayes e Função Discriminante Linear de Fisher (Linear Discriminant Analysis; LDA). Apoiado em argumentos teóricos e em testes empíricos realizados com nove diferentes conjuntos de dados nominais, o presente trabalho objetiva avaliar a capacidade do MCA e do BBIL em melhorar o desempenho de classificadores em termos de acurácia preditiva média. Com o objetivo de se beneficiar simultaneamente das vantagens de ambos os tratamentos de dados são avaliadas duas combinações entre estas técnicas. A primeira trata-se da transformação GDA sobre os atributos previamente selecionados e, a segunda, a seleção de factor scores do MCA utilizando o BBIL (metodologia proposta). Os resultados dos experimentos confirmam a melhoria no desempenho de classificação proporcionada pelos tratamentos realizados e atestam a superioridade da metodologia proposta na maioria das situações analisadas.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languagePortuguêspt_BR
dc.subjectTesespt_BR
dc.titleUma metodologia para classificação de dados nominais baseada no processo KDDpt_BR
dc.typeTesept_BR


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record