• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016034P5 Programa de Pós-Graduação em Informática
    • Dissertações
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016034P5 Programa de Pós-Graduação em Informática
    • Dissertações
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Identifying DNA coding regions using transformers

    Thumbnail
    Visualizar/Abrir
    R - D - GUSTAVO HENRIQUE FERREIRA CRUZ.pdf (2.772Mb)
    Data
    2025
    Autor
    Cruz, Gustavo Henrique Ferreira
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: A identificação de regiões codificadoras em sequências genômicas de DNA permanece um desafio fundamental em bioinformática, pois determina quais segmentos codificam proteínas funcionais. Esta dissertação apresenta uma avaliação abrangente de arquiteturas baseadas em Transformers para três tarefas complementares de modelagem genômica: (i) classificação binária de íntrons/éxons em nível de sequência, (ii) rotulagem em nível de nucleotídeo via janelas deslizantes, e (iii) tradução end-to-end de DNA para proteína. Um dataset em larga escala foi curado apartir doNCBIGenBank,compreendendo1,67milhõesdesequênciasdeDNAgenômico abrangendo34.627espéciesemaisde10milhõesdefeaturesanotadas(íntrons, éxonseCDS).Este recurso, disponibilizado publicamente no Hugging Face, permitiu a comparação sistemática das arquiteturas GPT-2 (decoder-only), BERT (encoder-only), DNABERT-2 (especializado em DNA) e T5 (encoder-decoder) sob condições experimentais consistentes. Os resultados demonstram que Transformers, quando equipados com tokenização adaptada ao domínio e contexto biológico (organismo, anotações gênicas, regiões flanqueadoras), alcançam desempenho quase perfeito na classificação em nível de sequência (BERT: 99,96% de acurácia) e resultados competitivos em resolução de nucleotídeo (BERT: 81,83% de acurácia). No entanto, a tarefa generativa de tradução DNA-proteína mostrou-se substancialmente mais desafiadora, com GPT-2 e T5 falhando em produzir sequências proteicas biologicamente significativas, evidenciando limitações na modelagem conjunta de splicing e tradução a partir de entrada genômica bruta. Esses achados estabelecem os Transformers como ferramentas poderosas para análise contextual de sequências genômicas e identificam desafios-chave para futuros modelos fundacionais genômicos, incluindo tokenização em nível de códon, aprendizado multi-tarefa e integração de restrições estruturais de proteínas. Todo o código, modelos e datasets estão disponíveis publicamente no GitHub e Hugging Face para facilitar reprodutibilidade e pesquisas futuras
     
    Abstract: Identifying coding regions within genomic DNA sequences remains a fundamental challenge in bioinformatics, as it determines which segments encode functional proteins. This dissertation presents a comprehensive evaluation of Transformer-based architectures for three complementary genomic modeling tasks: (i) binary intron/exon sequence classification, (ii) nucleotide-level labeling via sliding windows, and (iii) end-to-end DNA-to-protein translation. A large-scale dataset was curated from NCBI GenBank, comprising 1.67 million genomic DNA sequences spanning 34,627 species and over 10 million annotated introns, exons, and CDS features. This resource, publicly released on Hugging Face, enabled systematic comparison of GPT-2 (decoder only), BERT (encoder-only), DNABERT-2 (DNA-specialized), and T5 (encoder-decoder) architectures under consistent experimental conditions. Results demonstrate that Transformers, when equipped with domain-adapted tokenization and biological context (organism, gene annotations, flanking regions), achieve near-perfect performance in sequence-level classification (BERT: 99.96% accuracy) and competitive results at nucleotide resolution (BERT: 81.83% accuracy). However, the generative DNA-to-protein translation task proved substantially more challenging, with both GPT-2andT5failingtoproducebiologicallymeaningfulproteinsequences, highlighting limitations in modeling joint splicing and translation from raw genomic input. These f indingsestablish Transformers aspowerfultoolsforcontext-awaregenomicsequenceanalysisand identify key challenges for future genomic foundation models, including codon-level tokenization, multi-task learning, and integration of structural protein constraints. All code, models, and datasets are publicly available on GitHub and Hugging Face to facilitate reproducibility and further research
     
    URI
    https://hdl.handle.net/1884/100750
    Collections
    • Dissertações [269]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV