Lei de Benford

A distribuição dos primeiros dígitos (de 1 a 9)[1] de acordo com a lei de Benford.[2] Cada barra azul representa um dígito e sua altura, a porcentagem da probabilidade de ocorrê-la em algum caso real.[3]

A lei de Benford, também chamada de lei do primeiro dígito,[4][5] lei de Newcomb-Benford e lei números anômalos refere-se à distribuição de dígitos em várias fontes de casos reais.[6] Ao contrário da homogeneidade esperada, a lei afirma que em muitas coleções de números que ocorrem naturalmente, o primeiro dígito significativo provavelmente será pequeno. Sem homogeneidade, esta distribuição mostra que o dígito 1 tem 30% de chance de aparecer em um conjunto de dados estatísticos enquanto valores maiores tem menos possibilidade de aparecer.[7]

Frank Benford demonstrou que esse resultado se aplica a uma ampla variedade de conjuntos de dados, incluindo contas de eletricidade, endereços, preços de ações, preços de casas, números de população, taxas de mortalidade, comprimentos de rios, constantes físicas e matemáticas. pelas leis de potência (que são muito comuns na natureza). Todas essas afirmações são calculadas ou definidas junto a uma escala logarítmica.

Definição matemática[editar | editar código-fonte]

Um conjunto de números satisfaz a lei de Benford[8] se o primeiro dígito  d (d ∈ {1, ..., 9}) ocorre com a seguinte probabilidade:[9][10]

d Probabilidade de ser o primeiro dígito
1 30.1% 30.1
 
2 17.6% 17.6
 
3 12.5% 12.5
 
4 9.7% 9.7
 
5 7.9% 7.9
 
6 6.7% 6.7
 
7 5.8% 5.8
 
8 5.1% 5.1
 
9 4.6% 4.6
 

História[editar | editar código-fonte]

As primeiras observações a respeito deste fenômeno foram feitas pelo astrônomo Simon Newcomb, por volta de 1881, ao notar  que as primeiras páginas de livros de logaritmo, utilizados na época para realizar cálculos logarítmicos, eram muito mais utilizadas do que as últimas páginas[11]. Isso o levou a propor que, em qualquer lista de números tirados de um conjunto aleatório, o conjunto de números que começam com ‘1’ tende a ser maior. Em seus estudos, Newcomb sugere que a probabilidade de um único número N ser o primeiro dígito de um número era igual a log(N+1) - log(N).

O fenômeno foi esquecido por um tempo até ser redescoberto pelo físico Frank Benford, por volta de 1938[12]. Frank Benford coletou dezena de milhares de números de 20 domínios diferentes, dentre eles estavam áreas de superfície de 335 rios, tamanho de populações de 3259 locais dos EUA, 104 constantes físicas, 1800 pesos moleculares, 5000 entradas de um livro matemático, 308 números contidos em uma edição da Reader’s Digest, os 342 primeiros endereços listados na American Men of Science e 418 taxas de mortalidade. O total de números utilizados no paper chegou a 20.229   e todos seguiam a mesma distribuição. A descoberta deste padrão foi nomeada posteriormente de Benford.

Em 1995, o matemático Theodore P. Hill conseguiu provar o fenômeno por trás das distribuições.[13]

Generalização[editar | editar código-fonte]

A lei de Benford pode ser estendida para além do primeiro dígito[14]. Em particular, a probabilidade de encontrar um número começando com a cadeia de números n é dada pela função:

Dessa forma, probabilidade de um número começar com 1, 2, 3 é de log10(1 + 1/123) ≈ 0.003516.

O resultado acima permite encontrar a probabilidade de um número específico ser encontrado em uma determinada posição dentro de um número. Por exemplo, a probabilidade do número 2 ser encontrado como segundo digito de um número é de:[14]

E a probabilidade de um número d,0 > d> 9, ser encontrado na n-ésima posição é de:

A distribuição probabilística do n-ésimo dígito, à medida que n aumenta, aproxima-se rapidamente de uma distribuição uniforme com 10% para cada um dos dez dígitos[14]. Geralmente, quatro dígitos são suficientes para assumir uma distribuição uniforme de 10%, já que 0 aparece 10,0176% do tempo no quarto dígito, enquanto 0 aparece 9,9824% do tempo.

Probabilidades 0 1 2 3 4 5 6 7 8 9
1º posição 30.1% 17.6% 12.5% 9.7% 7.9% 6.7% 5.8% 5.1% 4.6%
2º posição 12% 11.4% 10.9% 10.4% 10% 9.7% 9.3% 9% 8.8% 8.5%
3º posição 10.2% 10.1% 10.1% 10.1% 10% 10% 9.9% 9.9% 9.9% 9.8%

Aplicações[editar | editar código-fonte]

Detecção de Fraude Contábil[editar | editar código-fonte]

Em 1972, Hal Varian sugeriu que a lei de Benford poderia ser utilizada para detectar possíveis fraudes em lista de dados socioeconômicos apresentados em apoio a decisões de planejamento público. Com base na suposição de que as pessoas que compõem os números tendem a distribuir seus dígitos razoavelmente uniformemente, uma comparação simples da distribuição de frequência de primeiro dígito dos dados com a distribuição esperada de acordo com a lei de Benford deve mostrar quaisquer resultados anômalos.

Seguindo isso, Mark Nigrini mostrou que a lei de Benford poderia ser usada em contabilidade e auditoria forense como um indicador de fraude. Na prática, as aplicações da lei de Benford para detecção de fraude usam mais do que o primeiro dígito.[15]

Prova Judicial[editar | editar código-fonte]

Nos EUA, evidências baseadas na Lei de Benford já foram admitidas em casos criminais nos níveis local, federal e estadual.[16]

Dados Eleitorais[editar | editar código-fonte]

Walter Mebane, um cientista político e estatístico da Universidade de Michigan, foi o primeiro a aplicar o teste da lei de Benford para o segundo dígito (2BL-test) em análise forense de dados eleitorais.[17] Tais análises não são consideradas provas, mas sim mero indício de possível fraude, visto que é um método de identificação de irregularidades em resultados de eleições simples, mas não à prova de erros. O método pode deixar de detectar discrepâncias em eleições fraudadas, assim como pode apontar fraudes em ocasiões onde não ocorreram.[18]

Um estudo de 2011 dos cientistas políticos Joseph Deckert, Mikhail Myagkov e Peter C. Ordeschook do California Institute of Technology concluiu que aplicar a lei de Benford como um indicador estatístico de fraude eleitoral é "problemática e enganadora".[19] Nesse artigo cientifico foram simulados eleições justas e fraudulentas, bem como utilizado bancos de dados, e não foi observada nenhuma correlação entre o desvio da lei de Benford e fraudes eleitorais. Nas palavras dos autores "Não é que simplesmente a lei [de Benford] ocasionalmente julga errado que uma eleição justa seja fraudulenta ou que uma eleição fraudulenta é justa. A 'taxa de acerto' da lei é essencialmente um lançar de moedas, acarretando no melhor dos casos uma ferramenta de análise problemática e no pior sendo totalmente enganadora."[19]

Em resposta a este trabalho, Mebane criticou o uso de simulações mas concordou que existem várias ressalvas em aplicar a lei de Benford a dados eleitorais.[20]

A lei de Benford foi invocada como indício de fraude nas eleições iranianas de 2009[21], e também usada para analisar outros resultados eleitorais. Entretanto, outros especialistas consideram que a lei de Benford não se aplica em alguns tipos de sistemas dinâmicos.[22][23]

A lei de Benford também já foi incorretamente aplicada para alegar fraude eleitoral. Após a eleição presidencial nos Estados Unidos em 2020, "especialistas" apontaram para o fato de que a distribuição dos primeiros dígitos dos números de votos do vencedor Joe Biden não seguia a lei de Benford. Esta análise incorre em erro ao aplicar a lei de Benford em dados com muito pouca variação em escala, violando a premissa inerente à lei de Benford de que os valores dos dados observados tenham grande variação de escala. De acordo com Mebane, "É amplamente conhecido que os primeiros dígitos das contagens de votos não são úteis para o diagnóstico de fraudes eleitorais."[24][25]

Dados Macroeconômicos[editar | editar código-fonte]

Os dados macroeconômicos relatados pelo governo grego à União Européia antes de entrar na zona do euro mostraram-se provavelmente fraudulentos usando a lei de Benford.[26]

Análise de dígitos de preços[editar | editar código-fonte]

A importância deste índice de referência para a detecção de irregularidades nos preços foi demonstrada pela primeira vez num estudo à escala europeia que investigou os preços praticados antes e depois da introdução do euro .  A introdução do euro em 2002, com suas diversas taxas de câmbio, distorceu os padrões de preços nominais existentes e, ao mesmo tempo, manteve os preços reais. Enquanto os primeiros dígitos dos preços nominais distribuídos de acordo com a lei de Benford, o estudo mostrou um claro desvio deste índice para o segundo e terceiro dígitos em preços nominais de mercado com uma clara tendência para preços psicológicos após o choque nominal da introdução do euro.[27]

Análise de dados do genoma[editar | editar código-fonte]

O número de quadros de leitura abertos e sua relação com o tamanho do genoma difere entre eucariontes e procariontes, sendo que o primeiro apresenta uma relação log-linear e o segundo, uma relação linear. A lei de Benford foi usada para testar essa observação com um excelente ajuste aos dados em ambos os casos.[28]

Detecção de fraude científica[editar | editar código-fonte]

Um teste de coeficientes de regressão em artigos publicados mostrou concordância com a lei de Benford. Um grupo de controle fabricou estimativas estatísticas e os resultados fabricados não obedeceram a lei de Benford.[29]

Referências

  1. Raimi, Ralph A. (1976). «The First Digit Problem». American Mathematical Monthly. 83 (7): 521–538. doi:10.2307/2319349 
  2. Arno Berger and Theodore P Hill, Benford's Law Strikes Back: No Simple Explanation in Sight for Mathematical Gem, 2011
  3. Élise Janvresse and Thierry de la Rue (2004), "From Uniform Distributions to Benford's Law", Journal of Applied Probability, 41 1203–1210 doi:10.1239/jap/1101840566 Recorde militar preprint Arquivado em 31 de maio de 2013, no Wayback Machine.
  4. L. C. Washington, "Benford's Law for Fibonacci and Lucas Numbers", The Fibonacci Quarterly, 19.2, (1981), 175–177
  5. Duncan, R. L. (1967). «An Application of Uniform Distribution to the Fibonacci Numbers». The Fibonacci Quarterly. 5: 137–140 
  6. Theodore P. Hill, "The Significant-Digit Phenomenon", The American Mathematical Monthly, Vol. 102, No. 4, (Apr., 1995), pp. 322–327. Official web link (subscription required). Alternate, free web link Arquivado em 11 de setembro de 2006, no Wayback Machine..
  7. Formann AK (2010) The Newcomb-Benford Law in its relation to some common distributions. PLoS 5(5): e10541. doi:10.1371/journal.pone.0010541
  8. Nigrini, M. (1996). «A taxpayer compliance application of Benford's Law». J Amer Tax Assoc. 18: 72–91 
  9. Durtschi, C; Hillison, W; Pacini, C (2004). «The effective use of Benford's Law to assist in detecting fraud in accounting data». J Forensic Accounting. 5: 17–34 
  10. Raimi, RA (1976). «The first digit problem». American Mathematical Monthly. 83: 521–538. doi:10.2307/2319349 
  11. Newcomb, Simon (1881). «Note on the Frequency of Use of the Different Digits in Natural Numbers». American Journal of Mathematics. 4 (1): 39–40. doi:10.2307/2369148 
  12. Benford, Frank (1938). «The Law of Anomalous Numbers». Proceedings of the American Philosophical Society. 78 (4): 551–572 
  13. Hill, Theodore P. (novembro de 1995). «A Statistical Derivation of the Significant-Digit Law». Statistical Science (em inglês). 10 (4): 354–363. ISSN 0883-4237. doi:10.1214/ss/1177009869 
  14. a b c Hill, Theodore P. (1995). «The Significant-Digit Phenomenon». The American Mathematical Monthly. 102 (4): 322–327. doi:10.2307/2974952 
  15. «I've Got Your Number». Journal of Accountancy. 1 de maio de 1999 
  16. «From Benford to Erdös». 30 de setembro de 2009. Arquivado do original em 18 de agosto de 2010 
  17. Mebane, Walter (18 de julho de 2006). «Election Forensics: Vote Counts and Benford's Law» (PDF) 
  18. «Election forensics: How to detect voting fiddles». 24 de fevereiro de 2007 
  19. a b Deckert, Joseph; Myagkov, Mikhail; Ordeshook, Peter C. (2011). «Benford's Law and the Detection of Election Fraud». Cambridge. Political Analysis (em inglês) (3): 245–268. ISSN 1047-1987. doi:10.1093/pan/mpr014. Consultado em 4 de janeiro de 2017 
  20. Mebane, Walter R. (2011). «Comment on "Benford's Law and the Detection of Election Fraud"». Cambridge. Political Analysis (em inglês) (3): 269–272. ISSN 1047-1987. doi:10.1093/pan/mpr024. Consultado em 4 de janeiro de 2017 
  21. «Statistics hint at fraud in Iranian election». New Scientist (em inglês) 
  22. «Wayback Machine» (PDF). 17 de maio de 2014. Consultado em 26 de junho de 2018 
  23. «Do dynamical systems follow Benford's law?» 
  24. «Fact check: Deviation from Benford's Law does not prove election fraud». Reuters. 10 de novembro de 2020 
  25. Dacey, James (19 de novembro de 2020). «Benford's law and the 2020 US presidential election: nothing out of the ordinary». Physics World 
  26. Worstall, Tim. «Greece Was Lying About Its Budget Numbers». Forbes (em inglês) 
  27. Sehity, Tarek el; Hoelzl, Erik; Kirchler, Erich (dezembro de 2005). «Price developments after a nominal shock: Benford's Law and psychological pricing after the euro introduction». International Journal of Research in Marketing. 22 (4): 471–480. ISSN 0167-8116. doi:10.1016/j.ijresmar.2005.09.002 
  28. Friar, James L.; Goldman, Terrance; Pérez–Mercader, Juan (18 de maio de 2012). «Genome Sizes and the Benford Distribution». PLOS ONE (em inglês). 7 (5): e36624. ISSN 1932-6203. PMC 3356352Acessível livremente. PMID 22629319. doi:10.1371/journal.pone.0036624 
  29. Diekmann, Andreas (16 de maio de 2007). «Not the First Digit! Using Benford's Law to Detect Fraudulent Scientific Data». Journal of Applied Statistics