Dissertações

Dissertações https://hdl.handle.net/1884/39741 Wed, 15 Jul 2026 09:52:47 GMT 2026-07-15T09:52:47Z Database architectures for educational management information systems: a comparative evaluation with application to the burundian context https://hdl.handle.net/1884/105814 Database architectures for educational management information systems: a comparative evaluation with application to the burundian context Bayubahe, Cyprien Resumo: Esta dissertação apresenta uma avaliação experimental de arquiteturas de banco de dados para sistemas de informação de gestão educacional, motivada pelas limitações da infraestrutura de dados do setor educacional do Burundi, onde os dados ainda são armazenados de forma fragmentada, predominantemente em sistemas relacionais orientados a linhas, com baixa interoperabilidade e capacidade analítica reduzida. Para investigar alternativas mais escaláveis, este trabalho propõe uma arquitetura composta por PostgreSQL, ClickHouse, Trino e Apache Superset, executada sobre Linux, e conduz experimentos comparativos de desempenho utilizando scripts em Python e C. Os experimentos consistem na execução de consultas analíticas sobre um conjunto de dados educacionais brasileiros com 1,5 milhão de registros, medindo tempos de execução ao longo de 30 iterações por banco de dados, com tratamento estatístico de outliers via método IQR, além de métricas de desempenho de hardware coletadas com a ferramenta LIKWID. Os resultados demonstram que o ClickHouse apresenta desempenho superior ao PostgreSQL para cargas analíticas, com melhoria de aproximadamente 49% no tempo médio de execução nos experimentos com Python e 11,3% nos experimentos com C, confirmando que a arquitetura orientada a colunas é mais adequada para esse tipo de workload mesmo em um ambiente federado via Trino. Esses achados contribuem para a discussão sobre o desenvolvimento de uma infraestrutura de dados educacionais mais eficiente e escalável no contexto do Burundi; Abstract: This dissertation presents an experimental evaluation of database architectures for educational management information systems, motivated by the limitations of Burundi’s educational data infrastructure, where data remains stored in a fragmented manner, predominantly in row-oriented relational systems with limited interoperability and analytical capacity. To investigate more scalable alternatives, this work proposes an architecture composed of PostgreSQL, ClickHouse, Trino, and Apache Superset running on Linux, and conducts comparative performance experiments using Python and C client implementations. The experiments consist of executing analytical SQL queries over a Brazilian educational dataset containing 1.5 million records, measuring execution times across 30 iterations per database with statistical outlier filtering via the IQR method, and collecting hardware-level performance metrics using the LIKWID profiling tool. The results show that ClickHouse consistently outperforms PostgreSQL for analytical workloads, with a performance improvement of approximately 49% in average execution time in the Python-based experiments and 11.3% in the C-based experiments, confirming that column-oriented storage is better suited for this type of workload even within a federated query environment mediated by Trino. These findings contribute to the discussion on the development of a more efficient and scalable educational data infrastructure in the Burundian context Orientador: Guilherme Alex Derenievicz; Coorientador: André Luiz Pires Guedes; Banca: Guilherme Alex Derenievicz (Presidente da Banca), Giovanni Venâncio de Souza, Cinthia Raquel de Souza, André Luiz Pires Guedes; Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 16/06/2026; Área de concentração: Computação; Inclui referências Thu, 01 Jan 2026 00:00:00 GMT https://hdl.handle.net/1884/105814 2026-01-01T00:00:00Z Docaug : new augmentation models for document recognition https://hdl.handle.net/1884/96033 Docaug : new augmentation models for document recognition Resumo: A literatura recente em Reconhecimento de Documentos tem visto muitos avanços. Desde a incorporação do modelo BERT ao domínio de documentos, técnicas baseadas em Transformers têm dominado o estado da arte, e assim como acontece no campo de NLP, este estado da arte geralmente é superado através de modelagem de atenção ou ajustes no pré-treino. No entanto, qualidade de dados tem sido um tópico cada vez mais pungente em vários campos de deep learning, mas o escopo de documentos ainda não tem visto muitos avanços nesta discussão. Além disso, existem vários domínios no campo de Reconhecimento de Documentos cujos documentos apresentam tarefas few-shot onde anotações de qualidade são escassas. Com o objetivo de avançar a pesquisa em documentos neste tópico, apresentamos duas técnicas de aumento de dados que focam em maximizar o conhecimento contido nas instâncias de documentos conhecidas, utilizando técnicas sem imagem. Prosseguimos na linha de utilizar algumas técnicas do campo de NLP com um modelo baseado em LLMs para reescrita de textos, uma técnica de aumento de dados que foi primeiro apresentada em alguns cenários de NLP. Além disso, criamos um algoritmo para extrair templates de documentos de acordo com uma estrutura de grafos gerada pelas respectivas entidades (nós). Estes templates possuem a informação de layout de cada documento embutida, e podem ser usados para aumentação de dados numa estratégia simples de preencher o formulário com algum método de geração de texto. Cada uma de nossas técnicas de aumentação são testadas através de um dataset público da literatura, e realizamos a etapa de fine-tuning em um modelo pré-treinado para veriocar se nossas aumentações auxiliam na melhora da performance. Nossos resultados mostram que estas técnicas conseguem melhorar as métricas de qualidade consistentemente, para ambas as técnicas e em todos os cenários de teste, reduzindo a taxa de erro em cerca de dez por cento para o FUNSD e em até cinquenta para o EPHOIE; Abstract: The most recent literature in Document Recognition has seen many advances. Ever since the adaptation of BERT, Transformer-based approaches have been dominating and, in line with other NLP improvements, the state of the art is usually broken through attention modeling or pre-training adjustments. However, data quality has been an increasingly relevant topic in various deep learning oelds, but the document scope has not seen many advancements in this discussion yet. Furthermore, many areas of Document Recognition involve important few-shot tasks where annotated documents are scarce. To further the document research on this topic, we present two new data augmentation techniques that focus on maximizing the knowledge from the known document instances, using imageless techniques. We continue on the line of employing some techniques from the NLP oeld with an LLM-based approach for text rewriting, a data augmentation approach pioneered in some NLP scenarios. Furthermore, we also create an algorithm to extract templates from documents based on a graph structure generated by the respective entities (nodes). These templates encode the layout information from each document and can be used for data augmentation by olling the template out with a generator’s text. Each of our approaches is validated in a different public dataset taken from the literature, and we one-tune a pre-trained model to evaluate whether our augmentations help boost its performance. We ond out that these techniques consistently improve the quality measure, for both techniques and in all testing scenarios, reducing the error rate in around ten percent for FUNSD and up to ofty for EPHOIE Orientador: David Menotti Gomes; Coorientador: Roger Leitzke Granada; Banca: David Menotti Gomes (Presidente da Banca), Roger Leitzke Granada, Paulo Ricardo Lisboa de Almeida, Byron Leite Dantas Bezerra; Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 21/03/2025; Inclui referências; Área de concentração: Computação Wed, 01 Jan 2025 00:00:00 GMT https://hdl.handle.net/1884/96033 2025-01-01T00:00:00Z Classificação do aumento do átrio esquerdo em radiografias caninas utilizando inteligência artificial https://hdl.handle.net/1884/96095 Classificação do aumento do átrio esquerdo em radiografias caninas utilizando inteligência artificial Resumo: A doença mixomatosa da válvula mitral (DMVM) representa cerca de 75% dos casos de doenças cardíacas diagnosticadas em cães. Ela consiste na degeneração da válvula mitral, frequentemente evoluindo para um quadro de regurgitação mitral e insuficiência cardíaca congestiva. Um dos principais elementos para seu diagnóstico é a radiografia torácica, na qual são observados elementos como a presença de aumento do átrio esquerdo. Contudo, este é um tipo de exame que exige conhecimento específico do profissional veterinário para sua interpretação, sendo que muitas vezes as clínicas veterinárias não possuem a disponibilidade deste serviço. Isto, além do grande volume de radiografias realizadas diariamente, pode resultar em diagnósticos errôneos. Sendo assim, o objetivo deste trabalho foi desenvolver um modelo capaz de detectar automaticamente o aumento do átrio esquerdo em radiografias de cães, a fimdecolaborar com o diagnóstico da DMVM. Para tal, realizou-se o treinamento e análise de algoritmos de aprendizado profundo através da implementação de variados modelos de redes neurais convolucionais (CNNs) e de vision transformers (ViTs). Para treinar estas redes, confeccionou-se um dataset de radiografias torácicas latero laterais de cães contendo pacientes normais (n=290) e com átrio esquerdo aumentado (n=160). Além das imagens originais, foram utilizadas técnicas de aumento de dados para extrapolar a quantidade de amostras. Para a avaliação dos resultados foram adotadas a metodologia de validação cruzada (5-folds) e as métricas acurácia, precisão, sensibilidade, especificidades, F-score e área sob a curva característica de operação do receptor (AUC). Para o cenário apresentado neste trabalho, as CNNs tiveram performace superior aos ViTs na maioria das métricas. O melhor F-score foi obtido pela VGG19 (0,8808 ± 0,0332) e o melhor AUC pela InceptionV3 (0,8976 ± 0,0383), ambos os casos com aumento de dados. Com estes e os demais resultados, foram construídos diferentes ensembles de modelos. Entre eles, o melhor resultado foi atingido pelo ensemble composto pelas redes InceptionV3, VGG19 e DenseNet-121, todas com aumento de dados, o qual resultou em um F-score de 0,8892 ± 0,0371 e um AUC de 0,9099 ± 0,0508. Isto é, a combinação resultou em um classificador mais equilibrado na detecção de verdadeiros positivos, minimizando os resultados falsos positivos, superando os demais modelos.; Abstract: The myxomatous mitral valve disease (MMVD) accounts for approximately 75% of diagnosed cases of heart diseases in dogs. It consists of the degeneration of the mitral valve, often progressing to mitral regurgitation and congestive heart failure. One of the main elements for its diagnosis is chest radiography, which can assess the presence of characteristics such as the enlarged left atrium. However, this type of analysis requires specific expertise, and many veterinary clinics may lack this service. This, in combination with the high volume of X-rays generated daily, can often result in misdiagnosis. Thus, this study aims to develop a system capable of automatically detecting an enlarged left atrium in dog chest X-rays, contributing to the diagnosis of MMVD. We implemented deep learning algorithms using the artificial neural network architectures to achieve that. To train these networks, we created a dataset of lateral chest X-rays, comprising normal patients (n=290) and those with an enlarged left atrium (n=160). In addition to the original images, we employed data augmentation techniques to extrapolate the sample size. For evaluation, we adopted a 5-fold cross-validation methodology and analyzed the accuracy, precision, sensitivity, specificity, F-score, and area under the receiver operating characteristic curve (AUC) metrics. In this study, CNNs outperformed ViTs across most metrics. The highest F-score was achieved by VGG19 (0.8808 ± 0.0332), and the highest AUC by InceptionV3 (0.8976 ± 0.0383), both with data augmentation. With these and the other trained models, we constructed different ensembles. Among them, the best performance was obtained by an ensemble comprising InceptionV3, VGG19, and DenseNet-121 (all with data augmentation) resulting in an F-score of 0.8892 ± 0.0371 and an AUC of 0.9099 ± 0.0508. This combination produced a more balanced classifier for detecting true positives while minimizing false positives, surpassing the performance of all other trained models in these metrics Orientador: Prof. Dr. Lucas Ferrari de Oliveira; Banca: Lucas Ferrari de Oliveira (Presidente da Banca), Mauren Abreu de Souza, Tilde Rodrigues Froes, Eduardo Todt; Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 29/01/2025; Inclui referências Wed, 01 Jan 2025 00:00:00 GMT https://hdl.handle.net/1884/96095 2025-01-01T00:00:00Z Similarity operators for detecting denial constraint violations https://hdl.handle.net/1884/105229 Similarity operators for detecting denial constraint violations Resumo: A detecção de violações a restrições de integridade (ICs) é uma tarefa importante na limpeza de dados. Existem vários tipos de ICs, cada um deles expressando um conjunto diferente de restrições. Um tipo bem estudado de IC são as restrições de negação (DCs), que podem expressar umgrande conjunto de restrições. Entretanto, DCs podem falhar em detectar violações quando na presença de dados textuais ruidosos, i.e., dados textuais contendo valores diferentes para representar a mesma entidade do mundo real. A existência de diferentes representações da mesma entidade pode ser causada, por exemplo, por erros de digitação, acrônimos, ou abreviações. Apesar da existência de vários sistemas para detectar violações de DCs, nenhum deles ataca o problema de detectar violações na presença de dados ruidosos. Além disso, outros tipos de ICs já foram propostos para lidar com dados ruidosos, mas nenhum deles pode expressar o mesmo conjunto de restrições representadas por DCs. Para atacar essas limitações das abordagens anteriores na detecção de violações a ICs, nós exploramos o uso de operadores de similaridade para detectar violações a DCs ao apresentar o Similarity FAst Constraint-based Error DeTector (SimFACET), um detector de violações a DCs com similaridade. Ele avalia eficientemente DCs contendo predicados com operadores de similaridade usando algoritmos exatos e aproximados para executar junções por similaridade. Para determinar a similaridade entre dados textuais, o detector suporta distância de edição entre dados textuais e distância de cossenos entre text embeddings. Nós também exploramos diferentes estratégias para o planejamento da order de processamento dos predicados de similaridade, tentando balancear custo de avaliação e a seletividade dos predicados para reduzir o tempo total de detecção. Para avaliar os algoritmos e estratégias propostos, nós conduzimos experimentos entre múltiplos datasets e utilizando DCs com diferentes características. Os resultados mostram que o SimFACET mantém alta acurácia enquanto consistentemente reduz o tempo de detecção, executando até 4× mais rápido do que versões de base; Abstract: The detection of integrity constraints (ICs) violations is an important task in data cleaning. There are many types of ICs, each of them capable of expressing different sets of constraints. A well-studied type of IC are denial constraints (DCs), which can express a large set of constraints. However, DCs can fail in detecting violations when in the presence of noise string data, i.e., string data containing different values to represent the same real-world entity. The existence of these different representations of the same entity may be caused, for example, by typos, acronyms, or abbreviations. Despite the existence of several systems to detect DC violations, none of them addresses the problem of detecting violations in the presence of noisy data. Furthermore, other IC types have already been proposed to deal with noisy data, but none of them can express the same set of constraints represented by DCs. To address these limitations of the previous approaches in the detection of IC violations, we explore the use of similarity operators for detecting DC violations by presenting Similarity FAst Constraint-based Error DeTector (SimFACET), a violations detector for similarity DCs. It efficiently evaluates DCs containing predicates with similarity operators using exact and approximate algorithms for performing similarity joins. To determine string similarity, the detector supports edit distance between strings and cosine distance between text embeddings. We also explore different strategies for planning the processing order of the similarity predicates, trying to balance the evaluation cost and the selectivity of predicates to reduce the overall detection time. To evaluate the proposed algorithms and strategies, we have conducted experiments across multiple datasets and using DCs with different characteristics. The results show that SimFACET maintains high accuracy while consistently reducing detection time, executing up to 4× faster than baselines Orientador: Eduardo Cunha de Almeida; Coorientador: Eduardo Henrique Monteiro Pena; Banca: Eduardo Cunha de Almeida (Presidente da Banca), Daniel Kaster, Simone Dominico e Eduardo Henrique Monteiro Pena; Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 27/02/2026; Inclui referências; Área de concentração: Ciência da Computação Thu, 01 Jan 2026 00:00:00 GMT https://hdl.handle.net/1884/105229 2026-01-01T00:00:00Z