PreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seq
Resumo
Resumo: O sequenciamento de RNA através de sequenciadores de nova geração é denominado de RNA-Se , este sequenciamento permite estimar a abundância de transcritos e a identificação de genes diferencialmente expressos entre amostras. Apesar da reconhecida robustez metodológica dos dados gerados por RNA-Seq, o tratamento dos dados após o sequenciamento tem grande impacto na eficiência e consistência dos resultados. Há várias etapas envolvidas no preparo das amostras e execução do sequenciamento. Essas etapas podem resultar em produtos com vieses técnicos, contaminações, presença de adaptadores, bem como efeitos de lote que podem gerar leituras imprecisas, resultando em maior número de falsos positivos e falsos negativos. Recomendações de boas práticas nesta área incluem a realização do controle de qualidade em todas as etapas do pré-processamento dos dados, desde a coleta e o preparo das amostras até a quantificação dos transcritos, sendo muitas vezes necessário a implementação de fluxos de análise dedicados a diferentes cenários experimentais. Neste trabalho nós implementamos um novo pipeline de análise visando a padronização e harmonização dos principais algoritmos comumente utilizados no pré-processamento de dados de RNA-Seq. Denominado PreProcSEQ, nosso pipeline disponibiliza código fonte e descrição detalhada de todas etapas necessárias ao pré-processamento de dados de RNA-Seq, até a obtenção da matriz de expressão gênica. O PreProcSEQ agrega e sumariza resultados do controle de qualidade, retira resíduos de adaptadores e bases de baixa qualidade, retira efeitos de lotes preservando contagens, quantifica e anota transcritos, gera matrizes brutas e normalizadas de expressão gênica. O PreProcSEQ foi otimizado para demandar pouco recurso computacional, podendo ser utilizado tanto em computadores desktops como laptops. Disponibilizamos o PreProcSEQ nos repositórios github e Galaxy, no formato de um pacote R ou fluxo de trabalho científico. Antecipamos que o PreProcSEQ auxiliará pesquisadores na integração de algoritmos de pré-processamento de dados de RNA-Seq, simplificando a seleção de ferramentas e o uso de boas práticas recomendadas para a quantificação de transcritos. Abstract: The sequencing of RNA through next generation sequencers is called RNA-Seq, this sequencing allows estimating the abundance of transcripts and the identification of differentially expressed genes between samples. Despite the recognized methodological robustness of the data generated by RNA-Seq, the treatment of the data after sequencing has a great impact on the eficiency and consistency of the results. There are several steps involved in preparing samples and performing sequencing. These steps can result in products with technical biases, contamination, the presence of adapters, as well as batch effects that can generate inaccurate readings, resulting in a greater number of false positives and false negatives. Good practice recommendations in this area include carrying out quality control at all stages of data pre-processing, from sample collection and preparation to transcript quantification, often requiring the implementation of analysis flows dedicated to different experimental scenarios. In this work we implemented a new analysis pipeline aimed at standardizing and harmonizing the main algorithms commonly used in the pre-processing of RNA-Seq data. Called PreProcSEQ, our pipeline provides source code and a detailed description of all steps necessary for pre-processing RNA-Seq data, until obtaining the gene expression matrix. PreProcSEQ aggregates and summarizes quality control results, removes residues from poor quality adapters and bases, removes batch effects while preserving counts, quantifies and annotates transcripts, generates raw and normalized arrays of gene expression. PreProcSEQ was optimized to demand little computational resources, and can be used both on desktop and laptop computers. We make PreProcSEQ available in the github and Galaxy repositories, in the form of an R package or scientific workflow. We anticipate that PreProcSEQ will assist researchers in integrating RNA-Seq data preprocessing algorithms, simplifying tool selection and the use of recommended best practices for transcript quantitation.
Collections
- Dissertações [67]