| dc.contributor.advisor | Almeida, Eduardo Cunha de, 1977- | pt_BR |
| dc.contributor.other | Universidade Federal do Paraná. Setor de Ciências Exatas. Curso de Graduação em Ciência da Computação | pt_BR |
| dc.creator | Laszlo, Rubens Zandomenighi | pt_BR |
| dc.date.accessioned | 2025-09-05T21:07:55Z | |
| dc.date.available | 2025-09-05T21:07:55Z | |
| dc.date.issued | 2025 | pt_BR |
| dc.identifier.uri | https://hdl.handle.net/1884/98314 | |
| dc.description | Orientador: Eduardo Almeida | pt_BR |
| dc.description | Monografia (graduação) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Graduação em Ciência da Computação | pt_BR |
| dc.description | Inclui referências | pt_BR |
| dc.description.abstract | Resumo : A qualidade dos dados é um pilar para a tomada de decisão em ambientes corporativos e acadêmicos. O perfilamento de dados emerge como uma atividade essencial para avaliar essa qualidade, sendo a descoberta de Denial Constraints uma de suas técnicas mais expressivas para a detecção de inconsistências. Contudo, a eficácia e a robustez dos algoritmos de descoberta de Denial Constraints são desafiadas pela presença de ruídos, como erros e valores ausentes, comuns em dados do mundo real. Este trabalho apresenta, portanto, um estudo experimental que investiga o impacto da introdução de ruído na descoberta de Denial Constraints, com o objetivo de avaliar a robustez dos algoritmos e das métricas de qualidade. Para tal, foi desenvolvido um pipeline de avaliação sistemático onde se introduziu ruído sintético — especificamente, dados ausentes (nulos via MCAR) em diferentes níveis de poluição — em conjuntos de dados de referência. Os algoritmos DCFinder e Hydra foram então aplicados sobre os dados poluídos, e as Denial Constraints resultantes foram avaliadas através de métricas de qualidade consolidadas (coverage, succinctness e interestingness) e de uma análise de suas características estruturais, comparando-as com um conjunto ideal chamado de "Golden Denial Constraints". Os resultados demonstram que o aumento do ruído leva a uma degradação consistente em todas as métricas de qualidade. Observou-se que os algoritmos tendem a gerar regras mais longas e complexas para se adaptarem aos dados imperfeitos (diminuindo a succinctness) e que estas perdem sua generalidade (diminuindo a coverage). A análise estrutural revelou que o perfil das Denial Constraints descobertas se desvia significativamente do perfil das Golden Denial Constraints, tanto no uso de operadores quanto nos atributos de foco. Conclui-se que o processo de escoberta de Denial Constraints é sensível à presença de ruído, e que os algoritmos, embora se adaptem, o fazem à custa da qualidade e da relevância semântica das regras. Este estudo evidencia a importância crítica de se considerar a robustez dos algoritmos de perfilamento e de se interpretar seus resultados com cautela em cenários de dados imperfeitos | pt_BR |
| dc.description.abstract | Abstract : Data quality is a cornerstone for decision-making in both corporate and academic environments. Data Profiling emerges as an essential activity to assess this quality, with the discovery of Denial Constraints (DCs) being one of its most expressive techniques for detecting inconsistencies. However, the effectiveness and robustness of DC discovery algorithms are challenged by the presence of noise, such as errors and missing values, which are common in real-world data. This work, therefore, presents an experimental study that investigates the impact of noise introduction on DC discovery, aiming to evaluate the robustness of the algorithms and their quality metrics. To this end, a systematic evaluation pipeline was developed where synthetic noise—specifically, missing values (nulls through MCAR)—was introduced at different pollution levels into reference datasets. The DCFinder and Hydra algorithms were then applied to the polluted data, and the resulting DCs were evaluated using established quality metrics (coverage, succinctness, and interestingness), as well as through a structural analysis comparing them against an ideal set of "Golden DCs". The results demonstrate that increasing noise leads to a consistent degradation across all quality metrics. It was observed that the algorithms tend to generate longer and more complex rules to adapt to the imperfect data (decreasing succinctness), and that the rules lose their generality (decreasing coverage). The structural analysis revealed that the profile of the discovered DCs deviates significantly from the Golden DC baseline, both in operator usage and attribute focus. It is concluded that both algorithms are vulnerable to noise, albeit with distinct adaptive behaviors, highlighting the importance of considering the robustness of profiling algorithms in practical scenarios | pt_BR |
| dc.format.extent | 1 recurso online : PDF. | pt_BR |
| dc.format.mimetype | application/pdf | pt_BR |
| dc.language | Português | pt_BR |
| dc.subject | Estrutura de dados (Computação) | pt_BR |
| dc.subject | Algorítmos computacionais | pt_BR |
| dc.title | Robustez da descoberta de denial constraint sem cenários de dados ruidosos : implicações para o perfilamento de dados | pt_BR |
| dc.type | TCC Graduação Digital | pt_BR |