Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala
Visualizar/ Abrir
Data
2024Autor
Garbelini, Jader Maikol Caldonazzo
Metadata
Mostrar registro completoResumo
Resumo: A descoberta de padrões conservados em sequências biológicas é um grande desafio na biologia computacional e na ciência da computação. Dentro do genoma dos mais variados tipos de organismos, existem pequenas estruturas preservadas com importante função celular, conhecidas como motifs. Por meio da análise dessas regiões, é possível identificar fragmentos específicos, conhecidos como sítios de ligação de proteínas. A identificação precisa desses fragmentos possibilita o desenvolvimento de medicamentos direcionados, capazes de ativar ou desativar funções específicas, o que enfraquece o agente invasor, reduzindo ou prevenindo a infecção no organismo hospedeiro. Identificar a localização destes fragmentos é um desafio complexo e ainda não resolvido na totalidade. Apesar de apresentarem certo grau de conservação, a variabilidade entre membros de uma mesma família de motifs é significativa, tornando a elaboração de modelos que os descrevam de maneira precisa uma tarefa complexa. Adicionado a isso, o advento de sequenciadores de nova geração acelerou a extração de genomas inteiros, destacando-se o protocolo chip-seq neste contexto. Esta tecnologia une a imunoprecipitação da cromatina ao sequenciamento de alto rendimento, produzindo uma vasta quantidade de dados enriquecidos. Entretanto, o comprimento total dos fragmentos obtidos por esta técnica ainda supera em muito o tamanho médio das regiões conservadas. Assim, surge a necessidade de desenvolver novos algoritmos computacionais para efetuar a análise e determinar a localização destas estruturas. Neste trabalho, introduzimos o biomapp::chip, uma arcabouço projetado para detectar fragmentos conservados em dados de chip-seq. O núcleo do biomapp::chip é a smt, uma estrutura de dados baseada em árvores de sufixos criada para contagem eficiente de kmers. Além disso, o biomapp::chip executa uma versão otimizada do algoritmo em para aperfeiçoar e otimizar os modelos iniciais gerados pela smt. A análise dos dados coletados a partir de uma variedade de experimentos revelou que o biomapp::chip superou significativamente os algoritmos considerados estado da arte. Especificamente, em comparação com os principais modelos de referência do repositório jaspar, o desempenho do biomapp::chip foi superior, apresentando uma melhoria de aproximadamente 42% na métrica de distância euclidiana e de 51% na métrica de distância hellinger em relação ao segundo colocado. Abstract: The discovery of conserved patterns in biological sequences is a major challenge in computational biology and computer science. Within the genome of the most varied types of organisms, there are small preserved structures with important cellular functions, known as motifs. By analyzing these regions, it is possible to identify specific fragments, known as protein binding sites. The precise identification of these fragments enables the development of targeted medicines, capable of activating or deactivating specific functions, which weakens the invading agent, reducing or preventing infection in the host organism. Identifying the location of these fragments is a complex challenge that has not yet been fully resolved. Despite showing a certain degree of conservation, the variability between members of the same family of motifs is significant, making the development of models that accurately describe them a complex task. Added to this, the advent of new generation sequencers has accelerated the extraction of entire genomes, highlighting the chip-seq protocol in this context. This technology combines chromatin immunoprecipitation with high-throughput sequencing, producing a vast amount of enriched data. However, the total length of the fragments obtained by this technique still far exceeds the average size of the conserved regions. Thus, there is a need to develop new computational algorithms to perform the analysis and determine the location of these structures. In this work, we introduce biomapp::chip, a framework designed to detect conserved fragments in chip-seq data. The core of biomapp::chip is smt, a suffix tree-based data structure designed to efficiently count kmers. Additionally, biomapp::chip runs an optimized version of the em algorithm to refine and optimize the initial models generated by smt. Analysis of data collected from a variety of experiments revealed that biomapp::chip significantly outperformed state-of-the-art algorithms. Specifically, compared to the main reference models from the jaspar repository, biomapp::chip performed better, showing an improvement of approximately 42% in the euclidean distance metric and of 51% in the hellinger distance metric in relation to second place.
Collections
- Teses [126]