Explorando abordagens inovadoras para geração de classificadores
Abstract
Resumo: Desde os anos 80, a área de aprendizado de máquina tem contribuído para a descoberta deconhecimento e, dentre as suas atribuições, mais especificamente, a tarefa de classificação tem sido utilizada para a formulação de modelos de auxílio para previsões. Neste sentido, o propósito desta tese é melhorar a indução de classificadores por meio da combinação de conjuntos não-ordenados de modelos com a utilização de critérios biobjetivos. Para atingir tal objetivo foram utilizadas duas abordagens. A primeira abordagem buscou verificar a hipótese de que a combinação das técnicas de boosting e estratégia evolucionária podem atingir o equilíbrioentre precisão e generalidade. Para validação da hipótese, foi proposta uma nova linguagem de representação, juntamente com novas medidas de avaliação. Experimentos foram realizados comparando a proposta com um algoritmo clássico e, embora apenas um caso tenha demonstrado um desempenho melhor, acredita-se que a linguagem de representação criada pode ser útil com outras estratégias, sendo apontados alguns caminhos a explorar para seu aperfeiçoamento. A segunda abordagem investigou a hipótese de que a criação de um conjunto de regras não-ordenadas segundo critérios biobjetivos pode maximizar a AUC (Área abaixo da curva ROC (Receiver Operating Characteristic)). Procurou-se identificar as medidas desejáveis para a criação de conjuntos que fossem os mais próximos da Fronteira de Pareto. Para tal, foi criado o algoritmo Pareto Front Elite (PFE) que, deterministicamente, gera as regras e faz aseleção de acordo com os critérios de sensitividade e especificidade. Os resultados dos experimentos demonstraram que é possível utilizar os critérios biobjetivos para a maximização da AUC. Outras investigações foram feitas com a mesma finalidade do algoritmo PFE, porém, com o objetivo maior de trabalhar com grandes bases de dados; os resultados foram dois algoritmos baseados em metaheurísticas para a criação num único passo do conjunto de regras não-ordenadas. O primeiro algoritmo, MOPSO, utilizou a nuvem de partículas com conceitosmultiobjetivos; alguns experimentos foram realizados e os resultados de AUC foram semelhantes ou melhores do que a maioria dos trabalhos relacionados. A combinação entre GRASP epath-relinking resultou na construção do segundo algoritmo: GRASP-PR Rule Learning. Experimentos com o algoritmo foram realizados e os valores de AUC foram comparados, mostrando-se compatíveis com o algoritmo determinístico, além de serem melhores do que a maioria dos trabalhos relacionados. Outros experimentos foram conduzidos para a comparação dos conjuntos de aproximação utilizando como base o algoritmo com o melhor desempenho em termos de AUC; avaliações qualitativas e quantitativas multiobjetivas confirmaram que os conjuntos de aproximações da proposta são semelhantes às Fronteiras de Pareto. Abstract: Since the 80’s, the Machine Learning domain has been useful to knowledge discovery. Morespecifically, the classification task has been used to construct models for prevision. The goalof this thesis is to improve the induction of classifiers through the combination of non-orderedmodels using bi-objectives criteria. Two approaches were constructed for this proposes. Thefirst one verified the hypothesis that boosting technique can be combined to evolutionary strategies to reach the balance of precision and generality. To validate this hypothesis, a new representation language and new evaluation measures were proposed. Experiments were done tocompare the created algorithm with a classical one. Although, only one case demonstrated better performance, we believe the representation language can be useful with others strategies, forthat, some options must be tested and some improvement were indicated. The second approachinvestigated the hypothesis that the creation of a non-ordered set of rules following bi-objectivescriteria can maximize the AUC (Area Under the Receiver Operating Characteristic Curve). Itwas investigated the desirable measures for the creation of set of rules as close as possible to thePareto Front. For that, Pareto Front Elite (PFE) algorithm was created to generate the rules witha deterministic mechanism which makes the rule selection using the sensitivity and specificitycriteria. The experiment results show that it is possible to use bi-objective criteria to maximizethe AUC. Other investigations were done with the same goal as PFE algorithm, however, themain goal was to deal with great data sets; the results were two meta-heuristic algorithms thatcreate set of non-ordered rules in a single step. The first algorithm, MOPSO, used the particle swarm with multi objective criteria concepts. Some experiments with MOPSO were doneand its AUC results were similar or better than the most part of the related works. The secondalgorithm was a result of GRASP combined with path-relinking. Experiments were done toevaluate AUC values and the results were close to the deterministic algorithm results, and, itwas better than the most part of the related work. After choosing the algorithm with the bestAUC performance to be the basis algorithm, other experiments where done to compare the approximation sets. Quality and Quantitative multiobjective measures confirm that most part ofthe approximation sets of this approach are similar to the Pareto Fronts.
Collections
- Teses & Dissertações [10060]