Identificação de Splicing alternativo em sítios de início de transcrição de mRNAS de arroz utilizando dados de RNA-Seq.
Resumo
Resumo: RNA-Seq é uma técnica que permite quantificar os níveis de expressão de uma forma muito mais precisa do que os métodos empregados anteriormente. Estudos que utilizaram esse método já alteraram a visão da extensão e da complexidade de transcriptomas eucarióticos. Portanto, para este trabalho, foram utilizadas plantas de arroz como organismo modelo, devido a sua importância global como cultura alimentar. Foram usadas sequências curtas de mRNA obtidas de plantas de arroz (Oryza sativa subs. japonica) inoculada ou não com a bactéria fixadora de nitrogênio Herbaspirillum seropedicae (Brusamarello-Santos et al., dados não publicados). As sequências foram separadas de acordo com as amostras sequenciadas: dois grupos correspondem às amostras de três e sete dias após inoculação, composta por 328.409.635 de sequências de RNA-Seq trimadas. Assim, foi possível reportar o número de TSS's (Transcriptional Start Sites) e os TSS's diferencialmente expressos. Além disso, transcritos montados foram comparados com as estruturas gênicas dos genes anotados na base de dados RAP-DB (transcritos idênticos ou splicing alternativo) ou sem anotação (como os transcritos novos). Um total de 202.770.984 (61,7%) reads mapearam no genoma do arroz: 216.980.165 (75,2%) são reads exônicas, e 71.493.386 (24,8%) mapearam em junções de éxons. Esses números totalizam 288.473.551 de reads alinhadas, evidenciando que 85.702.567 dessas mapeavam em mais de um lugar. Um total de 6.942 (16,4%) e 4.915 (11,6%) genes obtiveram cobertura nas bibliotecas CR3 e IR3; e 6.733 (15,9%) e 3.807 (9%) genes para as bibliotecas CR7 e IR7, respectivamente. Posteriormente, foi possível reportar o número total de genes mapeados, anotados, não-anotados e transcritos com splicing alternativo para o genoma total, realizando a análise até mesmo por cromossomos em separado. Finalmente, após o alinhamento com o BLAST, 691 (3,31%) transcritos não-anotados obtiveram match com as proteínas do banco de dados NR. Em análises futuras, o restante, 20.185 (96,7%) transcritos não-anotados poderão ser comparados com as regiões de microRNA conhecidas no genoma do arroz. Aqueles que não mapearem nessas regiões devem ser sujeitos a uma análise de predição de estrutura secundária, a fim de verificar quanto a possíveis novas moléculas de microRNA reguladoras presentes neste conjunto de dados.
Collections
- Dissertações [67]