Análise de ilhas genômicas a partir de clusterização de proteínas
Resumo
Resumo: A resistência antimicrobiana e reconhecida como uma das mais graves ameaças globais para a saúde humana no século 21. Um importante mecanismo na adaptação de microrganismos esta presente nas Ilhas Genômicas (GIs). Essas regiões desempenham diferentes papeis nos microrganismos e são compartilhadas por diferentes espécies. Ferramentas de predição de ilhas genômicas e bancos de dados estão possibilitando organizar e catalogar essas regiões. Entretanto, divergências de anotações entre os organismos e variabilidade genética inerente das sequencias genômicas estão impedindo uma visão mais sistêmica, organizada e estrutural desse conjunto de ilhas genômicas. Neste trabalho, propomos aplicar técnicas de clusterização como um meio de determinar a diversidade real presente nas Ilhas Genômicas e avaliar numericamente as ocorrências de regiões codificantes de proteínas dentro dessas regiões, estabelecendo como referenciais o banco criado através da técnica de clusterização das proteínas provenientes de bancos especializados em GI, 68 organismos de interesse do grupo de pesquisa e o banco de genes essenciais. Os dados foram obtidos nas bases públicas, tratadas, normalizadas e comparadas por processos de alinhamentos. Programas escritos em R e Matlab foram aplicados para filtrar, agrupar, construir matrizes de co-ocorrência e desenvolver arvores de similaridade e filogenéticas. Os resultados permitiram classificar mais de um milhão de sequencias de proteínas presentes nos bancos de dados de ilhas genômicas em noventa e cinco mil grupos, os alinhamentos indicaram que 34% das ilhas estão contidas em um único e maior grupo. As analises das arvores e matrizes de co-ocorrência indicam alta correlação entre a composição genica das ilhas e a distribuição filogenética. Os dados demostram que as transferências horizontais via ilhas genômicas são filogeneticamente conservadas. Concluímos que a variabilidade genética entre sequencias de GIs e 10 vezes menor que a relatada na literatura. Aproximadamente 30% dos genes presente em regiões de ilhas genômicas apresentam 50% ou mais de similaridade com sequencias de genes essenciais. Ilhas Genômicas com alta co-ocorrência de proteínas são compartilhadas por organismos patogênicos e não patógenos. O método de clusterização foi eficiente em agrupar sequencias genicas com alta similaridade e reduzir a redundância e divergência nas anotações presentes nas bases de dados de ilhas genômicas. Abstract: Antimicrobial resistance is recognized as one of the most serious global threats to human health in the 21st century. An important mechanism in adapting microorganisms is present in the Genomic Islands (GIs). These regions present different roles in microorganisms and are shared by different species. Prediction tools from genomic islands and databases are making it possible to organize and catalog these regions. However, the divergence of annotation between organisms and inherent genetic variability of genomic sequences is preventing a more systemic, organized and structural view of this set of genomic islands. In this work, we propose to apply clustering techniques as a means to intensify the real diversity present in the Genomic Islands and to numerically evaluate the occurrences of proteins inside and outside these regions, establishing as reference the group of proteins grouped from specialized banks in GI, 68 organisms, and the essential gene pool. The data were obtained in the public databases, treated, normalized and compared by alignment processes. Programs written in R and Matlab were applied to filter, group, construct co-occurrence matrices and to develop similarity and phylogenetic trees. Our results allowed us to reduce more than one million protein sequences present in the genomic island databases in ninety-five thousand groups; alignments indicated that 34% of the islands were aligned with the largest group. The analyzes of trees and co-occurrence matrices indicate a high correlation between the genetic composition of the islands and the presence of the islands with the phylogenetic distribution. The data show that horizontal transfers via genomic islands are phylogenetically conserved. We conclude that the genetic variability between sequences is 10 times lower than that reported in the literature. Approximately 30% of the genes present in regions of genomic islands have 50% or more of similarity with essential gene sequences. Genomic islands with high co-occurrence of proteins are shared by pathogenic and non-pathogenic organisms. The clustering method was efficient in grouping gene sequences with high similarity and reducing the redundancy and divergence in the annotations present in the databases of genomic islands.
Collections
- Dissertações [67]