Mostrar registro simples

dc.contributor.advisorPassetti, Fabiopt_BR
dc.contributor.otherUniversidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformáticapt_BR
dc.creatorParreira, Vinícius da Silva Coutinhopt_BR
dc.date.accessioned2025-07-24T15:05:04Z
dc.date.available2025-07-24T15:05:04Z
dc.date.issued2020pt_BR
dc.identifier.urihttps://hdl.handle.net/1884/97506
dc.descriptionOrientador: Dr. Fabio Passettipt_BR
dc.descriptionAutor não autorizou a divulgação do arquivo digitalpt_BR
dc.descriptionDissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 20/02/2020pt_BR
dc.descriptionInclui referências: p. 72-74pt_BR
dc.description.abstractResumo: A estatística mais recente do GENCODE para a espécie humana, identificou 19.965 genes codificadores de proteína e um número de transcritos oriundos destes genes superior a 83.000. Esse fato está associado principalmente ao processamento do pré-mRNA após a transcrição denominado splicing alternativo. O splicing alternativo do pré-mRNA promove a formação de diferentes transcritos oriundos do mesmo gene devido ao reconhecimento alternativo de íntrons e éxons. Além disso, esses eventos podem alterar o potencial codificador da variante, como no caso da inserção de PTC (do inglês, Premature Termination Code) que pode levar a degradação da variante pela via de NMD (do inglês, Nonsense Mediated Decay). Em experimentos com ênfase em proteogenômica, é relevante a utilização de bancos de dados personalizados de sequências de proteínas que possuam informações de variantes por splicing alternativo e também do potencial codificador dessas variantes. Com esse objetivo, o nosso grupo de pesquisa desenvolveu o repositório SpliceProt para identificar peptídeos de proteoformas derivadas de variantes por splicing alternativo presentes no repositório RefSeq e dbEST. Entretanto, o repositório Unigene foi descontinuado em junho de 2019. O objetivo deste trabalho foi, então, atualizar o fluxo de construção do SpliceProt para receber dados do projeto Ensembl e além disso, adicionar uma etapa de filtragem para variantes por splicing alternativo que poderiam ser degradados pela via de NMD. Para tal, foram elaborados dois bancos de dados contendo dados de alinhamento e anotação do projeto Ensembl (Homo sapiens GRCh38 – versão 96) utilizando o padrão TSL (do inglês, Transcript Support Level) e tamanho da sequência como parâmetros de confiabilidade. Foi verificado discordâncias quanto o número de variantes em cada base de dados indicando que os dados disponíveis no projeto Ensembl não são correspondentes. Ao avaliar variantes preditas como alvo da via de NMD pelo software NMDClassifier, foi verificado que há variantes que não estão de acordo com a anotação do projeto Ensembl, o que pode refletir a necessidade de reformular como os dados estão anotados. Alguns transcritos já descritos na literatura como alvo da via de NMD foram preditos exclusivamente pelo programa NMDClassifier, outros, anotados exclusivamente pelo projeto Ensembl. Sendo assim, sugerimos utilizar as duas fontes de classificação para definir alvos da via de NMD, com destaque para anotação de transcritos codificadores de proteína com valor de TLS igual a 1. Essa etapa se mostrou de grande relevância devido a presença de variantes que eram potenciais alvo da via de NMD no conjunto de dados após tradução in silico. O parâmetro TSL foi avaliado como compatível com a esta abordagem. Entretanto alguns ajustes necessitam ser feitos para a otimização do repositório SpliceProt. Ainda assim, nossa abordagem permitiu identificar mais de 35.000 proteínas hipotéticas associadas à variantes por splicing alternativo que não estavam classificadas no projeto Ensembl como "codificadoras de proteína". Nosso método pode então ser utilizado para a criação de um banco de proteínas hipotéticas e contribuir com a identificação de peptídeos em abordagens de proteômica.pt_BR
dc.description.abstractAbstract: The Last GENCODE statistics for Homo sapiens show that there is more than 19,900 protein-coding gene associated with more than 83,000 transcripts. This difference is associated with the post-transcription pre-mRNA processing, named alternative splicing. The alternative splicing is associated to non-canonical recognition of exons and introns and the formation of different transcripts from a single gene. Moreover, the alternative splicing may be associated to the alteration of coding capacity of the variant. For example, a PTC (Premature Termination Code) can be introduced in the transcript and making it sensitive to NMD (Nonsense Mediated Decay). For many proteogenomics research is very important the utilization of personal protein sequences databases with information about coding potential of splicing variants. In this manner, our research group have developed a repository named SpliceProt. This repository were designed to in silico identification of peptides derived from proteins associated with splicing variants in the RefSeq and dbEST databases. However, the Unigene database was retired at July, 2019. The aim of this project was update the SpliceProt pipeline to receive the Ensembl project data and introduce a step for NMD-target identification. We have created two databases, one with alignment information and other with annotation information available at Ensembl project (Homo sapiens GRCh – version 96). The TSL (Transcript Support Level) and the transcript sequence length was used to select all the trustworthy coordinates. We found some discordances about the number of variants in each database, indicating that the data available in the Ensembl project are not corresponding. When we evaluate variants predicted as a NMD-target by the NMDClassifier software, it was found that some variants are not in accordance with the annotation of the Ensembl project. This may reflect the necessity of reformulate how this data is annotated. Some transcripts that have been already described in the literature as NMD-target were predicted exclusively by the NMDClassifier. On the other way, some validated transcripts are exclusively annotated as NMD-target by Ensembl project. Therefore, we suggest using the two classification sources to define NMD-targets, with emphasis on the Ensembl annotation of protein coding transcripts with a TLS value 1. This step proved to be very relevat due to the presence of potential NMD-target variants in the data set after in silico translation. The TSL parameter was evaluated as compatible with this approach. However, we have to perform some adjustments to optimize the SpliceProt repository. Our approach was able to identify more than 35,000 hypothetical proteins associated with alternative splicing variants that were not classified in the Ensembl project as "protein-coding". Our method can be used to create a hypothetical protein database and contribute to peptides identification in proteomic research.pt_BR
dc.format.extent1 recurso online : PDF.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languagePortuguêspt_BR
dc.subjectGenômicapt_BR
dc.subjectProteômicapt_BR
dc.subjectBiologia computacionalpt_BR
dc.subjectBioinformáticapt_BR
dc.titleIdentificação de variantes de splicing alternativo suscetíveis a degradação pela via NMD por uma abordagem de bioinformáticapt_BR
dc.typeDissertação Digitalpt_BR


Arquivos deste item

Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples