Tópicos sobre a Lei de Newcomb-Benford : introdução e aplicações

Bello, Vitória Eduarda

Visualizar/Abrir

R - D - VITORIA EDUARDA BELLO.pdf (1.212Mb)

Data

2023

Autor

Bello, Vitória Eduarda

Metadata

Mostrar registro completo

Resumo

Resumo: A grande quantidade de dados gerados e disponíveis atualmente tem passado cada dia mais por análises para atestar sua credibilidade. A Lei de Newcomb-Benford afirma essencialmente que os números de cada observação que formam as bases de dados são distribuídos de maneira não uniforme, resultado este que por ser contraintuitivo, tem sido utilizado em detecção de fraudes financeiras. Devido a isso, o presente estudo trata do aspecto teórico da Lei em questão e apresenta aplicações em que é testada a adequação com a Lei de Newcomb-Benford. Foram utilizados testes estatísticos, como o de Qui-Quadrado de Pearson, Desvio Absoluto Médio, Teste do Arco da Mantissa, Teste Z e Teste de Kolmogorov-Smirnov. As aplicações realizadas foram com dados populacionais do Censo do Brasil no ano de 2021, que na maioria dos testes de adequação, não se rejeitou a hipótese de que os dados seguiam a Lei em questão. Ainda, realizou-se aplicações com dados eleitorais disponíveis no Tribunal Superior Eleitoral, que indicaram rejeitar a hipótese de que os dados seguiam a Lei. A aplicação seguinte foi com dados de gastos públicos com a pandemia de COVID-19 no Estado do Paraná, bem como uma segunda análise extraindo amostras desses dados, que inicialmente foram considerados como populacionais. Nos dados amostrais, o Desvio Absoluto Médio encontrou uma convergência marginalmente aceitável com a Lei de Newcomb-Benford. Também utilizou-se de registros de câncer de base populacional como amostra, que novamente, pela maioria dos testes utilizados, não se rejeitou a hipótese de adequação com a Lei. Além disso, testou-se uma sequência númérica muito famosa, os números de Fibonacci, que estão ajustados quase perfeitamente com a Lei. Dessa forma, a Lei de Newcomb-Benford mostra-se promissora na identificação de desconformidades de diversos conjuntos de dados, contudo há necessidade de cautela em sua utilização principalmente quando trata-se de dados reais ou em que o tamanho de amostra N é muito grande

Abstract: The vast amount of data generated and available today is increasingly being analyzed to establish its credibility. The Newcomb-Benford Law essentially states that the numbers of each observation that make up the databases are distributed in a non-uniform way, a result which, because it is counterintuitive, has been used to detect financial fraud. Therefore, this study discusses the theoretical aspect of the Law in question and presents applications in which the adequacy or otherwise of the Newcomb-Benford Law is tested. Statistical tests such as Pearson’s Chi-Square, Mean Absolute Deviation, Mantissa Arc Test, Z-Test and Kolmogorov-Smirnov Test were used. The applications were conducted using population data from the 2021 Brazilian Census, and most of the goodness-of-fit tests did not reject the hypothesis that the data complied with the Law in question. Applications were also performed with electoral data available from the Superior Electoral Court, which indicated that the hypothesis that the data complied with the law was rejected. The next application was with data on public spending on the COVID-19 pandemic in the state of Paraná, as well as a second analysis extracting samples from this data, which was initially considered to be population-based. In the sample data, the Mean Absolute Deviation found a marginally acceptable convergence with the Newcomb-Benford Law. Population-based cancer registries were also used as a sample, and again, most of the tests employed did not reject the hypothesis of adequacy with the Law. In addition, we tested a very famous number sequence, the Fibonacci numbers, which fit almost perfectly with the Law. In this way, the Newcomb-Benford Law shows promise in identifying of nonconformity in various data sets, but caution is needed in its use, especially when dealing with real data or where the sample size N is very large

URI

https://hdl.handle.net/1884/85868

Collections

Dissertações [103]