Data Science & Big Data

Data Science & Big Data https://hdl.handle.net/1884/70843 Wed, 24 Jun 2026 20:12:58 GMT 2026-06-24T20:12:58Z Comparação de modelos de IA para classificação de alimentos https://hdl.handle.net/1884/101154 Comparação de modelos de IA para classificação de alimentos Resumo: Este trabalho compara o desempenho de três modelos de inteligência artificial (ViT-Base, Swin-Base e SigLIP2-Base) na tarefa de classificação de alimentos, utilizando o conjunto de dados Food-101. Foram avaliadas a acurácia, o custo computacional (parâmetros, FLOPs e latência de inferência) e as diferenças arquiteturais, com foco nos mecanismos de atenção e no tipo de pré-treinamento. Os resultados mostraram que todos os modelos atingiram alta acurácia (acima de 89%), com o Swin-Base apresentando o melhor equilíbrio entre desempenho e eficiência. O SigLIP2-Base obteve a maior precisão Top-1 e F1-macro, enquanto o ViT-Base destacou-se no Top-5. A análise fornece subsídios para a escolha de modelos eficientes em aplicações de visão computacional para reconhecimento de alimentos; Abstract: This study compares the performance of three artificial intelligence models (ViT-Base, Swin-Base, and SigLIP2-Base) for food classification using the Food-101 dataset. The evaluation considered accuracy, computational cost (parameters, FLOPs and inference latency), and architectural differences, focusing on attention mechanisms and pre-training strategies. Results showed that all models achieved high accuracy (above 89%), with Swin-Base providing the best balance between performance and efficiency. SigLIP2-Base achieved the highest Top-1 and macro F1 scores, while ViT-Base stood out in Top-5 accuracy. This analysis offers insights for selecting efficient models for food recognition tasks in computer vision Orientador: Prof. Dr. Paulo Ricardo Lisboa de Almeida; Monografia (especialização) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Especialização em Data Science & Big Data; Inclui referências Wed, 01 Jan 2025 00:00:00 GMT https://hdl.handle.net/1884/101154 2025-01-01T00:00:00Z Jealousy : a predictive and explainable model https://hdl.handle.net/1884/100599 Jealousy : a predictive and explainable model Resumo: O ciúme é uma resposta emocional complexa moldada por diferenças individuais nas estratégias de acasalamento, nas normas sociais e nos processos de autoavaliação. O presente estudo teve como objetivo predizer e explicar o ciúme por meio de uma abordagem de aprendizado de máquina combinada com valores SHAP, a fim de aumentar a interpretabilidade do modelo. Foi examinado um amplo conjunto de variáveis demográficas, psicológicas e relacionais, incluindo sociossexualidade, sexo, orientação sexual, religiosidade e autoestima. Os resultados indicaram que a sociossexualidade foi o preditor mais forte do ciúme, seguida pela heterossexualidade, religiosidade, autoestima e sexo. Interpretações evolutivas sugerem que o ciúme funciona como um mecanismo adaptativo de guarda do parceiro, moldado por trade-offs entre estratégias de acasalamento de curto e longo prazo e por riscos reprodutivos específicos de cada sexo. O maior nível de ciúme entre participantes heterossexuais parece ser impulsionado pela presença de consequências reprodutivas associadas a rivais do sexo oposto, enquanto a religiosidade esteve indiretamente associada a menores níveis de ciúme por meio de sua relação com atitudes sociossexuais mais restritas. Em contraste com grande parte da literatura existente, níveis mais elevados de autoestima estiveram associados a maior ciúme, achado que pode refletir o uso exclusivo de medidas de autoestima explícita e a influência de moderadores não mensurados. De modo geral, este estudo demonstra o valor de abordagens interpretáveis de aprendizado de máquina para integrar acurácia preditiva com teorias evolutivas e psicológicas, oferecendo novos insights sobre os determinantes do ciúme; Abstract: Jealousy is a complex emotional response shaped by individual differences in mating strategies, social norms, and selfevaluative processes. The present study aimed to predict and explain jealousy using a machine-learning framework combined with SHAP values to enhance model interpretability. A broad set of demographics, psychological, and relational variables was examined, including sociosexuality, sex, sexual orientation, religiosity, and self-esteem. Results indicated that sociosexuality was the strongest predictor of jealousy, followed by heterosexuality, religiosity, self-esteem, and sex. Evolutionary interpretations suggest that jealousy functions as an adaptive mate-guarding mechanism, shaped by tradeoffs between short-term and long-term mating strategies and by sex-specific reproductive risks. Higher jealousy among heterosexual participants appears to be driven by the presence of reproductive consequences associated with opposite-sex rivals, while religiosity was indirectly linked to lower jealousy through its association with more restricted sociosexual attitudes. Contrary to much of the existing literature, higher self-esteem was associated with greater jealousy, a finding that may reflect the exclusive use of explicit self-esteem measures and unmeasured moderating influences. Overall, this study demonstrates the value of interpretable machine-learning approaches for integrating predictive accuracy with evolutionary and psychological theory, offering new insights into the determinants of jealousy Orientador: Anderson Luiz Ara de Souza; Coorientador: Jaroslava Varella Valentova; Artigo apresentado como Trabalho de Conclusão de Curso; Artigo (especialização) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Especialização em Data Science & Big Data; Inclui referências Thu, 01 Jan 2026 00:00:00 GMT https://hdl.handle.net/1884/100599 2026-01-01T00:00:00Z Clusterização de lançamentos musicais de forró https://hdl.handle.net/1884/100597 Clusterização de lançamentos musicais de forró Resumo: A transformação digital da indústria fonográfica, impulsionada pelo streaming e redes sociais, tornou a categorização tradicional por gêneros musicais e volume de vendas insuficiente para explicar a complexa dinâmica de consumo atual. Este trabalho propõe uma abordagem de Data Science para segmentar o mercado musical de forró e sertanejo, correlacionando características intrínsecas de áudio (DNA Musical criado pelo Spotify) com métricas de desempenho nas plataformas Spotify, YouTube e TikTok. A metodologia utilizou uma base de dados de 11.398 obras, submetida a um processo de Engenharia de Atributos que desenvolveu métricas inéditas de Velocidade de Consumo (Velocity) e Taxas de Viralidade. Aplicou-se a Análise de Componentes Principais (PCA) para redução de dimensionalidade, seguida pelo algoritmo K-Means para agrupamento. Os resultados identificaram três perfis comportamentais distintos: "Orgânico/Nicho", "Mainstream/Gravadora"e "Viral/Explosivo". A análise revelou que atributos acústicos como energia e positividade (valence) são determinantes para a viralidade independente da gravadora, com gêneros como Piseiro e Funk dominando o cluster viral, enquanto menos energia se relacionam com um mainstream industrial, distribuindo-se entre o consumo consolidado e o viral. Conclui-se que a segmentação algorítmica oferece uma taxonomia mais interessante que os rótulos de mercado tradicionais; Abstract: The digital transformation of the phonographic industry, driven by streaming and social networks, has rendered traditional categorization by musical genres and sales volume insufficient to explain today’s complex consumption dynamics. This work proposes a Data Science approach to segment the forró and sertanejo music market, correlating intrinsic audio characteristics (Musical DNA created by Spotify) with performance metrics on Spotify, YouTube, and TikTok platforms. The methodology utilized a database of 11,398 works, subjected to a Feature Engineering process that developed unprecedented metrics for Consumption Velocity and Virality Rates. Principal Component Analysis (PCA) was applied for dimensionality reduction, followed by the K-Means algorithm for clustering. The results identified three distinct behavioral profiles: "Organic/Niche,Mainstream/Label,"and "Viral/Explosive."The analysis revealed that acoustic attributes such as energy and positivity (valence) are determinants for virality regardless of the record label, with genres like Piseiro and Funk dominating the viral cluster, while lower energy levels relate to an industrial mainstream, distributed between consolidated and viral consumption. It is concluded that algorithmic segmentation offers a more insightful taxonomy than traditional market labels Orientador: Wagner Bonat; Monografia (especialização) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Especialização em Data Science & Big Data; Inclui referências Thu, 01 Jan 2026 00:00:00 GMT https://hdl.handle.net/1884/100597 2026-01-01T00:00:00Z Data lakehouse : avaliação de viabilidade econômica em implementações on-premise e nuvem https://hdl.handle.net/1884/100596 Data lakehouse : avaliação de viabilidade econômica em implementações on-premise e nuvem Resumo: A consolidação da arquitetura Data Lakehouse representa um avanço significativo na engenharia de dados, unificando a flexibilidade dos Data Lakes com a governança dos Data Warehouses. No entanto, a estratégia predominante de adoção "Cloud First"tem gerado desafios orçamentários crescentes para organizações em hiperescala, impulsionando discussões sobre o repatriamento de nuvem. Este trabalho investiga a viabilidade econômica e técnica da implementação de Data Lakehouses em infraestrutura própria (On-Premise) comparada a serviços gerenciados de nuvem pública. Utilizando o framework de Custo Total de Propriedade (TCO), foi realizada uma simulação financeira projetada para cinco anos, modelando o crescimento de dados de Terabytes para Petabytes. A metodologia comparou cenários de hardware corporativo, hardware de entrada (commodity) e serviços nativos de nuvem, isolando variáveis como CapEx, OpEx e taxas de transferência. Os resultados demonstram que, embora a nuvem ofereça barreiras de entrada financeiramente imbatíveis para volumes inferiores a 220 TB (ou 75 TB em hardware de entrada), a infraestrutura própria torna-se superior em escala, atingindo um ponto de equilíbrio (break-even) no 22º mês e gerando economia acumulada superior a 60% em cenários de 3.5 PB. Adicionalmente, identificou-se o fenômeno do "Crossover de Egresso", onde apenas as taxas de saída de dados da nuvem superam o custo integral de um Data Center próprio, evidenciando riscos críticos em arquiteturas híbridas. Conclui-se que a estratégia ótima reside em um modelo dinâmico, iniciando na nuvem pela agilidade e migrando para o On-Premise para garantir a sustentabilidade financeira em escala; Abstract: The consolidation of the Data Lakehouse architecture represents a significant milestone in data engineering, unifying the flexibility of Data Lakes with the governance of Data Warehouses. However, the prevailing "Cloud First" adoption strategy has created growing budgetary challenges for hyperscale organizations, driving discussions around cloud repatriation. This paper investigates the economic and technical viability of implementing Data Lakehouses on private infrastructure (On-Premise) versus public cloud managed services. Using the Total Cost of Ownership (TCO) framework, a five-year financial simulation was conducted, modeling data growth from Terabytes to Petabytes. The methodology compared enterprise hardware, entry-level (commodity) hardware, and cloud-native service scenarios, isolating variables such as CapEx, OpEx, and data transfer fees. Results demonstrate that while the public cloud offers financially unbeatable entry barriers for volumes under 220 TB (or 75 TB using entry-level hardware), on-premise infrastructure becomes superior at massive scale, reaching a break-even point by the 22nd month and generating accumulated savings exceeding 60% in 3.5 PB scenarios. Additionally, the "Egress Crossover" phenomenon was identified, where cloud data egress fees alone surpass the entire cost of a private Data Center, highlighting critical risks in hybrid architectures. The study concludes that the optimal strategy lies in a dynamic model, starting in the cloud for agility and migrating to On-Premise to ensure long-term financial sustainability at scale Orientador: Prof. Marco A. Zanata Alves; Monografia (especialização) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Especialização em Data Science & Big Data; Inclui referências Wed, 01 Jan 2025 00:00:00 GMT https://hdl.handle.net/1884/100596 2025-01-01T00:00:00Z