Análise in silico de sequências de DNA de regiões genômicas associadas ao sistema CRISPR
Resumo
Resumo: As repetições palindrômicas curtas, interespaçadas e regularmente agrupadas - CRISPR - formam um sistema de imunidade adquirida em bactérias e arqueas. O CRISPR é um dos sistemas mais estudados na última década, especialmente como ferramenta de edição gênica, devido à sua capacidade de gerar indels em sequências alvo. Entretanto, as características nucleotídicas da região, a origem das sequências estruturais básicas e sua relação com outras estruturas conhecidas ainda são pouco descritas. Por isso, aqui nós mostramos uma análise exploratória in silico de sequências genômicas de regiões CRISPR em procariotos. Sequências de regiões CRISPR foram obtidas de diferentes bases de dados e foram agrupadas com a ferramenta RAFTS³G com critério de 50% de identidade. Os clusters formados foram confrontados com bases de dados públicas para predição de funções e estruturas biológicas. Os resultados indicam relação entre as sequências de repetição direta (DR) e outras estruturas, e há evidências de transferência horizontal de genes entre os domínios Bacteria, Archaea e Eukarya. As 7.081 sequências DR de bactérias agrupadas constituem 1.547 clusters, que compartilham 50% de identidade. Os maiores clusters são compostos por 1.001 (14%) e 140 sequências (2%), porém há baixa diversidade intracluster visto que esses grupos apresentam 30 e 32 sequências distintas, respectivamente. Já a análise de predição funcional indica que há grande similaridade entre sequências DR e estruturas conhecidas, como RNAs e alguns MGEs. Alinhamentos de sequências indicam a transferência horizontal de arranjos CRISPR entre Bradyrhizobium sp. BTAi 1 e a espécie de trigo selvagem Triticum urartu. Já as sequências de espaçadores CRISPR produziram muitos agrupamentos, todos com poucos membros e baixa similaridade com os elementos genéticos móveis conhecidos, demonstrando que a origem dos espaçadores precisa ser esclarecida. Nosso estudo demonstra que os componentes principais do arranjo CRISPR - DR e espaçadores - estão relacionados com diferentes estruturas funcionais conhecidas. A abordagem desse trabalho produziu diversos grupos que precisam ainda ser analisados, no intuito de ampliar o conhecimento do arranjo CRISPR. Também, a origem das sequências DR e dos espaçadores não foi revelada; além disso, contrapondo o que é descrito na literatura, observamos que os genes Cas1 e Cas2 não são universais, e detectamos a presença de CRISPR em eucarioto, visto que até o momento a estrutura era descrita unicamente em procariotos. Palavras-chave: CRISPR. Sequências de Repetição Direta. Espaçadores. Agrupamento. Abstract: Clustered Regularly Interspaced Short Palindromic Repeats (CRISPR) systems form an acquired immunity system that are widespread in bacteria and archaea. CRISPR are one of largely studied systems in last decade, especially as genome editing tool due to its ability to generate indels in target sequences. However, nucleotide characteristics of this region, the origin of basic structural sequences and its relations with well-known structures are poorly described. Therefore, here we show an in silico exploratory analysis of genomic sequences of CRISPR regions in prokaryotes. CRISPR sequences were collected from different databases and clustered by RAFTS³G tool with 50% of identity. Resulting clusters were matched against public databases in order to predict biological functions and structures. Results indicate a relationship between direct repeat sequences (DR) and other structures, and we found evidences of horizontal gene transfer between the Bacteria, Archaea and Eukarya domains. The 7.081 clustered DR sequences formed 1.547 clusters, which share 50% identity. The largest clusters are composed by 1.001 (14%) and 140 sequences (2%), but have low intracluster diversity, with 30 and 32 distinct sequences, respectively. The functional prediction analysis suggests high similarity between DR sequences and well-known structures, such as RNAs and some MGEs. Sequence alignments indicate horizontal transfer of CRISPR arrays from Bradyrhizobium sp. BTAi 1 to the wild wheat specie Triticum urartu. CRISPR spacers sequences resulted in a large number of clusters, all with few members and low similarity to known mobile genetic elements, indicating that the origin of the spacers needs to be elucidated. This study demonstrates that the main components of CRISPR array - DR and spacers - are closely related with well-known functional structures. The approach used in this research produced several clusters that still need to be analyzed in order to increase CRISPR arrays understanding. In addition, the origin of DR and spacers sequences was not found out; furthermore, in contrast with the literature, we observed that the Cas1 and Cas2 genes are not universal, and we detected the presence of CRISPR in eukaryote, whereas the structure was described only in prokaryotes. Keywords: CRISPR. Direct Repeat Sequences. Spacers. Clustering.
Collections
- Dissertações [67]