• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016034P5 Programa de Pós-Graduação em Informática
    • Teses
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016034P5 Programa de Pós-Graduação em Informática
    • Teses
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala

    Thumbnail
    Visualizar/Abrir
    R - T - JADER MAIKOL CALDONAZZO GARBELINI.pdf (4.264Mb)
    Data
    2024
    Autor
    Garbelini, Jader Maikol Caldonazzo
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: A descoberta de padrões conservados em sequências biológicas é um grande desafio na biologia computacional e na ciência da computação. Dentro do genoma dos mais variados tipos de organismos, existem pequenas estruturas preservadas com importante função celular, conhecidas como motifs. Por meio da análise dessas regiões, é possível identificar fragmentos específicos, conhecidos como sítios de ligação de proteínas. A identificação precisa desses fragmentos possibilita o desenvolvimento de medicamentos direcionados, capazes de ativar ou desativar funções específicas, o que enfraquece o agente invasor, reduzindo ou prevenindo a infecção no organismo hospedeiro. Identificar a localização destes fragmentos é um desafio complexo e ainda não resolvido na totalidade. Apesar de apresentarem certo grau de conservação, a variabilidade entre membros de uma mesma família de motifs é significativa, tornando a elaboração de modelos que os descrevam de maneira precisa uma tarefa complexa. Adicionado a isso, o advento de sequenciadores de nova geração acelerou a extração de genomas inteiros, destacando-se o protocolo chip-seq neste contexto. Esta tecnologia une a imunoprecipitação da cromatina ao sequenciamento de alto rendimento, produzindo uma vasta quantidade de dados enriquecidos. Entretanto, o comprimento total dos fragmentos obtidos por esta técnica ainda supera em muito o tamanho médio das regiões conservadas. Assim, surge a necessidade de desenvolver novos algoritmos computacionais para efetuar a análise e determinar a localização destas estruturas. Neste trabalho, introduzimos o biomapp::chip, uma arcabouço projetado para detectar fragmentos conservados em dados de chip-seq. O núcleo do biomapp::chip é a smt, uma estrutura de dados baseada em árvores de sufixos criada para contagem eficiente de kmers. Além disso, o biomapp::chip executa uma versão otimizada do algoritmo em para aperfeiçoar e otimizar os modelos iniciais gerados pela smt. A análise dos dados coletados a partir de uma variedade de experimentos revelou que o biomapp::chip superou significativamente os algoritmos considerados estado da arte. Especificamente, em comparação com os principais modelos de referência do repositório jaspar, o desempenho do biomapp::chip foi superior, apresentando uma melhoria de aproximadamente 42% na métrica de distância euclidiana e de 51% na métrica de distância hellinger em relação ao segundo colocado.
     
    Abstract: The discovery of conserved patterns in biological sequences is a major challenge in computational biology and computer science. Within the genome of the most varied types of organisms, there are small preserved structures with important cellular functions, known as motifs. By analyzing these regions, it is possible to identify specific fragments, known as protein binding sites. The precise identification of these fragments enables the development of targeted medicines, capable of activating or deactivating specific functions, which weakens the invading agent, reducing or preventing infection in the host organism. Identifying the location of these fragments is a complex challenge that has not yet been fully resolved. Despite showing a certain degree of conservation, the variability between members of the same family of motifs is significant, making the development of models that accurately describe them a complex task. Added to this, the advent of new generation sequencers has accelerated the extraction of entire genomes, highlighting the chip-seq protocol in this context. This technology combines chromatin immunoprecipitation with high-throughput sequencing, producing a vast amount of enriched data. However, the total length of the fragments obtained by this technique still far exceeds the average size of the conserved regions. Thus, there is a need to develop new computational algorithms to perform the analysis and determine the location of these structures. In this work, we introduce biomapp::chip, a framework designed to detect conserved fragments in chip-seq data. The core of biomapp::chip is smt, a suffix tree-based data structure designed to efficiently count kmers. Additionally, biomapp::chip runs an optimized version of the em algorithm to refine and optimize the initial models generated by smt. Analysis of data collected from a variety of experiments revealed that biomapp::chip significantly outperformed state-of-the-art algorithms. Specifically, compared to the main reference models from the jaspar repository, biomapp::chip performed better, showing an improvement of approximately 42% in the euclidean distance metric and of 51% in the hellinger distance metric in relation to second place.
     
    URI
    https://hdl.handle.net/1884/87628
    Collections
    • Teses [134]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV