Sweepweb : explorando a comparação de sequências biológicas em escala de bigdata
Resumo
Resumo: Novas tecnologias de sequenciamento permitem a geração de grandes quantidades de dados das ômicas e traz o desafio de tornar a análise desses dados possível. Os algoritmos baseados em alinhamento foram projetados para proporciona a análise de sequências, entretanto, o alto custo computacional impossibilita a aplicabilidade do método em grandes volumes de dados. O SWeeP é um método livre de alinhamento que representa sequências biológicas usando vetores com um custo computacional reduzido o que facilita o uso de Big data. O método SWeeP apresenta limitações na análise de grandes volumes de dados relacionadas a recursos computacionais locais que podem ser escassos ou não otimizados para sua aplicação. Além disso, por ser um método novo, as definições de parâmetros do método em diferentes estruturas de dados biológicas precisam ser exploradas e validadas. Aqui, propomos a disponibilização do método SWeeP em uma plataforma web que dispensa a instalação e configurações em substituição da atual versão desktop. Além do desenvolvimento da plataforma, criamos um método a fim de aferir a acurácia dos vetores de baixa dimensão gerados pelo SWeeP para distinção de sequências biológicas de genes, proteínas e genomas de procariotos. Como resultado obtivemos uma plataforma web escalonável e definimos o limite de projeção mínima a ser utilizada para preservar a estabilidade do método. Essas análises são importantes para prever de forma in silico a função ou estrutura do gene e da proteína, bem como a proximidade entre genomas que permite prospecção biotecnológica. Abstract: New sequencing technologies allow the generation of large amounts of data from omics and brings the challenge of making the analysis of that data possible. The alignment-based algorithms were designed to provide sequence analysis, however, the high computational cost makes it impossible to apply the method to large volumes of data. SWeeP is a free alignment method that represents biological sequences using vectors with a reduced computational cost, which facilitates the use of big data. The SWeeP method has limitations in the analysis of large volumes of data related to local computational resources that may be scarce or not optimized for your application. Also, as it is a new method, definitions of method parameters in different biological data structures need to be explored and validated. Here, we propose to make the SWeeP method available on a web platform that does not require installation and configuration to replace the current desktop version. In addition to the development of the platform, we created a method to assess the accuracy of the low-dimensional vectors generated by SWeeP to distinguish biological sequences of genes, proteins and prokaryote genomes. As a result, we obtained a scalable web platform and defined the minimum projection limit to be used to preserve the stability of the method. These analyzes are important to predict in silico the function or structure of the gene and protein, as well as the proximity between genomes that allows biotechnological prospecting.
Collections
- Dissertações [66]