A curiosa, mas não sobrenatural, Lei de Benford

A primeira vez que ouvi falar dessa famosa lei realmente me veio uma surpresa. Achei inacreditável o fato do primeiro dígito não ter uma distribuição de probabilidade uniforme. Parece uma espécie de ‘lei que nos controla’, ou uma ‘lei que está acima da nossa humilde arbitrariedade’. Porém, apesar de curiosa, essa lei não tem nada de sobrenatural, exceto sua própria simplicidade.

Para quem caiu de paraquedas nesse post, a Lei de Benford fala que a distribuição do primeiro dígito em registros de fontes e dados reais não é homogênea. Ou seja, não há igual probabilidade de variar entre 0 e 9, nem entre 1 e 9 caso você tenha pensado que o 0 à esquerda não faça sentido. Essa lei diz que há uma distribuição de aproximadamente:

  • 30% para que o primeiro dígito seja 1;
  • 17% para que o primeiro dígito seja 2;
  • 12% para que o primeiro dígito seja 3;
  • 10% para que o primeiro dígito seja 4;
  • 8% para que o primeiro dígito seja 5;
  • 7% para que o primeiro dígito seja 6;
  • 6% para que o primeiro dígito seja 7;
  • 5% para que o primeiro dígito seja 8;
  • 4% para que o primeiro dígito seja 9.

Há vários usos para esse resultado, como por exemplo verificar se houve adulteração de dados em alguma instituição. Pois é provável que eles se comportem dessa forma, desse modo se isso não ocorrer, é de se suspeitar que houve adulteração.

Mas de onde vem essa coisa sobrenatural? Qual a razão desse padrão estranho chamado de Lei de Benford?

A explicação disso é simples, vejamos uma notícia que saiu hoje (dia 26/12/2020) no G1 sobre a Dengue (sim, ainda existem outras doenças no Brasil além da COVID).

Dengue: DF ultrapassa 47 mil casos em 2020

Temos nessa notícia o número 47 mil casos.
Mas antes dessa notícia era esperado que tivéssemos 30 mil casos.
Antes dessa, devemos ter a notícia 20 mil casos;
Antes dessa, devemos ter a notícia 10 mil casos;

Mas Distrito Federal não é a única região com casos de Dengue. Podíamos ter tido outras notícias (dependendo da data) como por exemplo:

DF ultrapassa 10 mil casos em 2020
SP ultrapassa 10 mil casos em 2020
MG ultrapassa 10 mil casos em 2020
RJ ultrapassa 10 mil casos em 2020

Contudo, nem todas as regiões são afetadas da mesma forma, assim poderíamos ter que dos 27 estados brasileiros, 25 deles passem de 20 mil casos de Dengue. Mas desses 25 estados, talvez nem todos passem de 30 mil casos, podemos dizer por exemplo que 21 estados passaram de 30 mil casos. E assim sucessivamente, chegando que apenas 3 estados passem de 50 mil casos de Dengue.

Isso significa que nas notícias relacionadas aos casos de Dengue, teríamos 27 delas falando sobre o respectivo estado ter passado de 10 mil casos de Dengue. Porém, apenas 25 estados com notícias falando de ter passado de 20 mil casos. E assim diminuindo…

A mesma relação vale por exemplo para números de filhos. A maioria das pessoas antes de ter seu segundo-filho, tem o seu primeiro-filho. Ou seja, se formos olhar os registros de famílias com filhos, o número 1 aparecerá no primeiro dígito com muita frequência, dado que antes de termos o segundo, terceiro, quarto filho, geralmente temo o primeiro.

De forma análoga, quando surge uma doença, antes de termos o segundo caso de infectado, teremos a notícia sobre o primeiro caso. E não só isso, cada cidade, cada região, cada país, terá seu primeiro caso. Então teremos o primeiro caso em Campinas, o primeiro caso em Bauru, o primeiro caso em São Carlos… veja como o 1 aparece nos registros com muita frequência se comparável aos demais. Por exemplo, tivemos o primeiro caso de uma doença extremamente rara. Pode ser que nos próximos anos ninguém naquela mesma região apresente a mesma doença, fazendo com que fiquemos ainda no primeiro caso.

Por isso, o 1 se vê tão presente no primeiro dígito. Pois pensando um pouco em probabilidade condicional, geralmente para termos o 2, precisamos que o 1 tenha ocorrido antes. Fazendo desse mais frequente que o 2, e este mais frequente que o 3, e assim sucessivamente.

Crédito da imagem de capa à Stefan Keller por Pixabay


Como referenciar este conteúdo em formato ABNT (baseado na norma NBR 6023/2018):

SILVA, Marcos Henrique de Paula Dias da. A curiosa, mas não sobrenatural, Lei de Benford. In: UNIVERSIDADE ESTADUAL DE CAMPINAS. Zero – Blog de Ciência da Unicamp. Volume 4. Ed. 1. 2º semestre de 2020. Campinas, 27 dez. 2020. Disponível em: https://www.blogs.unicamp.br/zero/2497/. Acesso em: <data-de-hoje>.

4 thoughts on “A curiosa, mas não sobrenatural, Lei de Benford

  • 30 de janeiro de 2022 em 12:08
    Permalink

    Ok, o problema está em confundir "dados reais" com "dados aleatorios"... O estudo desse fenômeno começou com preços, que nada tem de aleatório: junto com populações, infecções, etc,. seguem uma lógica incremental. Mas se os dados seguirem uma lógica normal (gerados por uma norma, como dimensões industriais, notas escolares, etc.) não sei se funciona. E se escrevermos os números no sistema binário, todos os registros começarão com 1, exceto zero...

    Resposta
    • 30 de janeiro de 2022 em 18:58
      Permalink

      Oi Marco, acho que o problema reside principalmente na não-aleatoriedade dos dados que a princípio pareceriam ter características aleatórias (como o primeiro dígito).

      No contexto de dados gerados por uma norma, você mesmo responde a pergunta 🙂 o valor vai se concentrar no topo da curva de Bell, ou seja, não há realmente uma aleatoriedade no primeiro dígito.

      Sobre um sistema binário, não faria muito sentido utilizar a Lei de Benford neste caso, porém em outros sistemas numéricos a mesma talvez siga valendo, por exemplo no Hexadecimal.

      Resposta
    • 24 de setembro de 2022 em 09:43
      Permalink

      Casos não aleatórios fazem com que a acomodação estatística espontânea seja "corrompida" pela força determinante da não aleatoriedade. Exemplo: uma empresa que, por causa dos custos logísticos, imponha o mínimo para faturamento de novecentos reais; está forçando com que a incidência de faturas que se iniciem por "9", fiquem muito acima dos 4,6% esperados em uma acomodação natural na distribuição aleatória. Esse é um exemplo em que todos os prováveis pedidos iniciados de R$1,00 a R$899,00; simplesmente, deixem de existir nesse universo. Portanto, essa "lei", como regra, goza do privilégio de toda regra, ao ter sua(s) exceção (ões).

      Resposta
      • 24 de setembro de 2022 em 09:50
        Permalink

        Muito legal como sua explicação complementa o texto, Emanuel. A primeira vez que ouvimos falar desta "lei" geralmente esquecemos que os números encontrados por acaso, não são realmente obra do acaso. Gostei bastante do seu exemplo, obrigada :3

        Resposta

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *