Otimizaçao de um algoritmo de estimativa de distribuiçao na tarefa de seleçao de características
Date
2005Author
Traleski, Rodrigo
Metadata
Show full item recordSubject
TesesBanco de dados - Administração
Algorítmos
Inteligência artificial
Ciencia da Computação
xmlui.dri2xhtml.METS-1.0.item-type
DissertaçãoAbstract
Resumo: A tarefa de classificação em mineração de dados é uma das principais no processo de aquisição de conhecimento implícito em grandes bancos de dados. Hoje, é comum encontrar grandes volumes de dados, armazenados em meios magnéticos, cuja análise, através de métodos tradicionais, nem sempre possibilita transformá-los em informações úteis para as empresas. A tarefa de classificação objetiva, principalmente, encontrar relacionamentos entre os dados de forma a descobrir padrões que possam ser utilizados para preverfuturas situações com base nos dados históricos. Para alcançar com qualidade um padrão de relacionamento entre os dados, informações redundantes ou irrelevantes devem ser desconsideradas na fase de aprendizado. Vários trabalhos já foram propostos, na tentativa de se encontrarem os dados que realmente interessam para a tarefa de classificação. Algoritmos evolucionários, como algoritmos genéticos (AG) e algoritmos de estimativa de distribuição (EDA) foram utilizados nesta tarefa. EDAs se diferenciam dos AG's, na forma como exploram os espaços de busca das soluções disponíveis. Utilizam um modelo probabilístico, que permite a utilização de conhecimento a priori, sobre o problema em questão, para evoluir suas populações e assim melhorar suas aplicações. Este trabalho investiga a utilização de conhecimento a priori na aplicação de algoritmos de estimativa de distribuição na tarefa de seleção de características em mineração de dados. Como conhecimento a priori foi utilizada uma ordem de importância das variáveis do problema, que foi obtida através da aplicação de um te se estatístico, cujo resultado possibilitou a geração de um modelo probabilístico inicial do problema que também foi utilizado como conhecimento a priori. Os resultados mostram que as otimizações propostas neste trabalho resultaram em melhorias em termos de custo computacional e resultado final da classificação. Palavras-chave: mineração de dados; seleção de características; algoritmos evolucionários; algoritmos de estimativa de distribuição; redes Bayesianas; conhecimento a priori Abstract: The classification in data mining is one of the main task ones in the implicit knowledge acquisition process in large databases. Nowadays, it is common to find large data volumes, sored in magnetic means, whose analysis, through traditional methods, do not always facilitate to transform them in useful information for the companies. The objective classification task, mainly, finds relationships among the data in order to discover patterns that can be used to foresee future situations based upon the historical data. In order to reach pattern with quality among the data, either redundant or irrelevant information should be disregarded in the learning phase. Several works have already been proposed, on attempt of finding really interest data for the classification task. Evolutionary algorithms such as genetic algorithms (AG) and estimate distribution algorithms (EDA) have been used in this task. EDAs differ from AGs on the way they explore the searching spaces of the available solutions. They use a probabilistic model, which Slows the use of knowledge a priori, on the problem in subject, to develop its populations and therefore maximize their applications. This work investigates the use of knowledge a priori on the application of estimate distribution algorithms in the task of feature selection in data mining. As the knowledge a priori, it has been used the importance order of the problem variables, that was obtained through the application of a statistical test, whose result facilitated the generation of a initial probabilistic model of the problem that was also used as knowledge a priori. The results show that the proposed optimizations in this work re su e d in improvements in terms of computational cost and also on final classification result. Keywords: data mining; feature selection; algorithms evolutionary; algorithms of distribution estimate; Bayesian networks; knowledge a priori
Collections
- Teses & Dissertações [8580]