Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados

Santos, Letícia Graziela Costa, 1995-

dc.contributor.advisor	Raittz, Roberto Tadeu, 1966-	pt_BR
dc.contributor.author	Santos, Letícia Graziela Costa, 1995-	pt_BR
dc.contributor.other	Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática	pt_BR
dc.date.accessioned	2022-05-09T19:47:20Z
dc.date.available	2022-05-09T19:47:20Z
dc.date.issued	2019	pt_BR
dc.identifier.uri	https://hdl.handle.net/1884/62174
dc.description	Orientador: Prof. Dr. Roberto Tadeu Raittz	pt_BR
dc.description	Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 05/02/2019	pt_BR
dc.description	Inclui referências: p. 84-93	pt_BR
dc.description.abstract	Resumo: Nas últimas décadas com o rápido desenvolvimento de disciplinas como a genômica e a proteômica, a quantidade de informação biológica que é produzida e armazenada diariamente nos Bancos de Dados de proteínas tem aumentado de forma rápida e irregular, tornando a aplicação e o desenvolvimento de técnicas de mineração de dados cada vez mais importante. No caso dos bancos de dados de sequências biológicas, problemas na qualidade dos dados como alto nível de redundância e artefatos de anotação tornaram as técnicas de clusterização uma das formas mais rápidas e eficientes de solucionar problemas como armazenamento, curadoria e busca contra os bancos de dados. Entretanto, analisando criteriosamente o estado da arte na clusterização de bancos de dados de sequências biológicas percebe-se a necessidade de reprocessar os resultados quando se obtêm clusters muito grandes se comparado à média do banco. Assim, neste contexto, este trabalho propôs a criação de um pipeline para a aplicação de técnicas de mineração de dados com o objetivo de caracterizar grandes conjuntos de dados gerados após a clusterização de bancos de dados de sequências biológicas. Análises realizadas com base em um estudo de caso biológico permitiram a criação de um pipeline baseado em inferência de homologia, anotações funcionais de Gene Ontology e técnicas de mineração de texto desenvolvidas neste trabalho. Os resultados mostram que, de acordo com a consistência da anotação da função intracluster, os maiores clusters requerem reprocessamento quando o banco de dados foi clusterizado com o valor de corte de 50% de identidade. O algoritmo de clusterização de texto desenvolvido para o pipeline foi preciso e eficiente para reclusterizar os conjuntos de dados utilizados neste trabalho. Os resultados deste trabalho levam a recomendações práticas para usos mais eficazes dos resultados das ferramentas de clusterização de sequências biológicas. Palavras-chave: Clusterização. Bancos de Dados Biológicos. Mineração de Dados.	pt_BR
dc.description.abstract	Abstract: In the last years, the rapid development of disciplines such as genomics and proteomics generated an amount of biological information that is daily stored in protein databases. Thus, these biological databases have increased rapidly and irregularly, making primordial the application and development of data mining techniques. In the case of biological sequence databases, data quality problems such as high level of redundancy and annotation artifacts have made clustering techniques one of the fastest and most efficient ways of solving problems such as storage, curation and database search. However, by carefully analyzing the State of the Art in clustering of biological sequence databases, it's noticed that's necessary to reprocess the results when very large clusters are obtained, but the best way to do this reprocessing is yet an open question. Thus, in this context, this work proposed the creation of a pipeline for the application of data mining techniques with the aim of characterizing large proteins datasets generated after clustering biological sequence databases. Analyzes carried out based on a biological case study allowed the creation of a pipeline based on homology inference, functional annotations of Gene Ontology and text mining techniques developed in this work. Results show that according to intracluster function annotation consistency, clusters with large size require reprocessing when the database was clustered with self-score of 50% of identity. The text clustering algorithm developed for the pipeline was accurate and efficient in reclustering the datasets. This evaluation leads to practical recommendations for more effective uses of the sequence clustering tools results. Keywords: Clustering. Biological Databases. Data Mining.	pt_BR
dc.format.extent	1 recurso online : PDF.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language	Português	pt_BR
dc.subject	Mineração de dados (Computação)	pt_BR
dc.subject	Analise por conglomerados	pt_BR
dc.subject	Bioinformática	pt_BR
dc.title	Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados	pt_BR
dc.type	Dissertação Digital	pt_BR

Arquivos deste item

Nome:: R - D - LETICIA GRAZIELA COSTA ...
Tamanho:: 3.172Mb
Formato:: PDF

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Dissertações [66]

Mostrar registro simples