| dc.contributor.advisor | Ramirez Pozo, Aurora Trinidad, 1959- | pt_BR |
| dc.contributor.other | Barbeitos, Marcos Soares, 1975- | pt_BR |
| dc.contributor.other | Oliveira, Lucas Ferrari de, 1976- | pt_BR |
| dc.contributor.other | Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática | pt_BR |
| dc.creator | Cruz, Gustavo Henrique Ferreira | pt_BR |
| dc.date.accessioned | 2026-02-04T12:48:40Z | |
| dc.date.available | 2026-02-04T12:48:40Z | |
| dc.date.issued | 2025 | pt_BR |
| dc.identifier.uri | https://hdl.handle.net/1884/100750 | |
| dc.description | Orientador: Aurora Trinidad Ramirez Pozo | pt_BR |
| dc.description | Banca: Aurora Trinidad Ramirez Pozo (Presidente da Banca), Marcos Soares Barbeitos e Lucas Ferrari de Oliveira | pt_BR |
| dc.description | Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 19/01/2026 | pt_BR |
| dc.description | Inclui referências | pt_BR |
| dc.description | Área de concentração: Ciência da Computação | pt_BR |
| dc.description.abstract | Resumo: A identificação de regiões codificadoras em sequências genômicas de DNA permanece um desafio fundamental em bioinformática, pois determina quais segmentos codificam proteínas funcionais. Esta dissertação apresenta uma avaliação abrangente de arquiteturas baseadas em Transformers para três tarefas complementares de modelagem genômica: (i) classificação binária de íntrons/éxons em nível de sequência, (ii) rotulagem em nível de nucleotídeo via janelas deslizantes, e (iii) tradução end-to-end de DNA para proteína. Um dataset em larga escala foi curado apartir doNCBIGenBank,compreendendo1,67milhõesdesequênciasdeDNAgenômico abrangendo34.627espéciesemaisde10milhõesdefeaturesanotadas(íntrons, éxonseCDS).Este recurso, disponibilizado publicamente no Hugging Face, permitiu a comparação sistemática das arquiteturas GPT-2 (decoder-only), BERT (encoder-only), DNABERT-2 (especializado em DNA) e T5 (encoder-decoder) sob condições experimentais consistentes. Os resultados demonstram que Transformers, quando equipados com tokenização adaptada ao domínio e contexto biológico (organismo, anotações gênicas, regiões flanqueadoras), alcançam desempenho quase perfeito na classificação em nível de sequência (BERT: 99,96% de acurácia) e resultados competitivos em resolução de nucleotídeo (BERT: 81,83% de acurácia). No entanto, a tarefa generativa de tradução DNA-proteína mostrou-se substancialmente mais desafiadora, com GPT-2 e T5 falhando em produzir sequências proteicas biologicamente significativas, evidenciando limitações na modelagem conjunta de splicing e tradução a partir de entrada genômica bruta. Esses achados estabelecem os Transformers como ferramentas poderosas para análise contextual de sequências genômicas e identificam desafios-chave para futuros modelos fundacionais genômicos, incluindo tokenização em nível de códon, aprendizado multi-tarefa e integração de restrições estruturais de proteínas. Todo o código, modelos e datasets estão disponíveis publicamente no GitHub e Hugging Face para facilitar reprodutibilidade e pesquisas futuras | pt_BR |
| dc.description.abstract | Abstract: Identifying coding regions within genomic DNA sequences remains a fundamental challenge in bioinformatics, as it determines which segments encode functional proteins. This dissertation presents a comprehensive evaluation of Transformer-based architectures for three complementary genomic modeling tasks: (i) binary intron/exon sequence classification, (ii) nucleotide-level labeling via sliding windows, and (iii) end-to-end DNA-to-protein translation. A large-scale dataset was curated from NCBI GenBank, comprising 1.67 million genomic DNA sequences spanning 34,627 species and over 10 million annotated introns, exons, and CDS features. This resource, publicly released on Hugging Face, enabled systematic comparison of GPT-2 (decoder only), BERT (encoder-only), DNABERT-2 (DNA-specialized), and T5 (encoder-decoder) architectures under consistent experimental conditions. Results demonstrate that Transformers, when equipped with domain-adapted tokenization and biological context (organism, gene annotations, flanking regions), achieve near-perfect performance in sequence-level classification (BERT: 99.96% accuracy) and competitive results at nucleotide resolution (BERT: 81.83% accuracy). However, the generative DNA-to-protein translation task proved substantially more challenging, with both GPT-2andT5failingtoproducebiologicallymeaningfulproteinsequences, highlighting limitations in modeling joint splicing and translation from raw genomic input. These f indingsestablish Transformers aspowerfultoolsforcontext-awaregenomicsequenceanalysisand identify key challenges for future genomic foundation models, including codon-level tokenization, multi-task learning, and integration of structural protein constraints. All code, models, and datasets are publicly available on GitHub and Hugging Face to facilitate reproducibility and further research | pt_BR |
| dc.format.extent | 1 recurso online : PDF. | pt_BR |
| dc.format.mimetype | application/pdf | pt_BR |
| dc.language | Inglês | pt_BR |
| dc.subject | Bioinformática | pt_BR |
| dc.subject | Proteínas | pt_BR |
| dc.subject | DNA | pt_BR |
| dc.subject | Ciência da Computação | pt_BR |
| dc.title | Identifying DNA coding regions using transformers | pt_BR |
| dc.type | Dissertação Digital | pt_BR |