Desenvolvimento de ferramenta computacional para identificação de promotores Sigma 54 utilizando rede neural artificial
Resumo
Resumo: A transcrição de vários genes bacterianos é regulada por fatores sigma alternativos da RNA polimerase como o sigma 54 ou sigma N. A sequência consenso (mrNrYTGGCACG-N4-TTGCWNNw) do fator sigma 54 esta localizada 12 pares de bases acima do sitio de iniciação da transcrição e as bases mais conservadas estão localizadas nas posições -25/-24 (GG, 100% de conservação) e -13/-12 (GC, 96% de conservação). Algumas abordagens utilizando modelos ocultos de Markov (HMM) são reportadas em literatura para identificação de sequências promotoras em genomas completos. No entanto, estes métodos não apresentam resultados satisfatórios. Neste teste utilizamos um algoritmo que pré-seleciona candidatos a promotores sigma 54 baseando no padrão de conservação. Os candidatos são então classificados utilizando uma rede neuronal artificial treinada com um conjunto de sequências de promotores sigma 54 validados e um conjunto de sequências improváveis composto por metade apresentando o dois nucleotídeos "GG" e "GC" mais conservados e a outra metade com bases aleatórias. O método foi testado com o genoma da bactéria Herbaspirillum seropedicae, resultando em 3148 sequências candidatas com os padrões de conservação "GG" e "GC". Dentre estes, 126 são considerados regiões verdadeiras de ligação do fator de transcrição sigma 54 pela rede neuronal. Todas as sequências validadas de fatores sigma 54 em H. seropedicae foram identificadas pelo programa . Portanto, nossa abordagem é capaz de detectar fatores de transcrição sigma 54. Abstract: The transcription of many bacterial genes is regulated by alternative sigma factors of the RNA polymerase such as the sigma 54 or sigma N. The consensus sequence (mrNrYTGGCACG-N4-TTGCWNNw) of the sigma 54 promoter is located 12 base pairs upstream of the transcription start site and the most conserved bases are located at the positions -25/-24 (GG, 100% conservation) and -13/-12 (GC, 96% conservation). Several approaches using Hidden Markov Models (HMM) have been reported in the literature to identify promoter sequences in whole genomes. However, these methods frequently do not show satisfactory results. In this test we used an algorithm that pre-sort candidates for sigma 54 promoter sequences based on the presence of the conserved motifs. The candidates are then screened using an artificial neural network trained with a set of validated sigma 54 promoter sequences and another set of improbable sequences composed by half showing the two dinucleotides "GG" and "GC" most highly conserved and the another half with random bases. We also tested the method in the whole genome sequence of the bacterium Herbaspirillum seropedicae, resulting in 3148 candidate regions with the conserved GG and GC motifs. Out of these, 126 were considered true sigma 54-dependent promoter by the trained neural network. All the validated sigma 54 promoters of H. seropedicae were identified by our software. Therefore, our approach is capable of reliable detection of sigma 54 promoters.
Collections
- Dissertações [67]