A curiosa, mas não sobrenatural, Lei de Benford

A primeira vez que ouvi falar dessa famosa lei realmente me veio uma surpresa. Achei inacreditável o fato do primeiro dígito não ter uma distribuição de probabilidade uniforme. Parece uma espécie de ‘lei que nos controla’, ou uma ‘lei que está acima da nossa humilde arbitrariedade’. Porém, apesar de curiosa, essa lei não tem nada de sobrenatural, exceto sua própria simplicidade.

Para quem caiu de paraquedas nesse post, a Lei de Benford fala que a distribuição do primeiro dígito em registros de fontes e dados reais não é homogênea. Ou seja, não há igual probabilidade de variar entre 0 e 9, nem entre 1 e 9 caso você tenha pensado que o 0 à esquerda não faça sentido. Essa lei diz que há uma distribuição de aproximadamente:

  • 30% para que o primeiro dígito seja 1;
  • 17% para que o primeiro dígito seja 2;
  • 12% para que o primeiro dígito seja 3;
  • 10% para que o primeiro dígito seja 4;
  • 8% para que o primeiro dígito seja 5;
  • 7% para que o primeiro dígito seja 6;
  • 6% para que o primeiro dígito seja 7;
  • 5% para que o primeiro dígito seja 8;
  • 4% para que o primeiro dígito seja 9.

Há vários usos para esse resultado, como por exemplo verificar se houve adulteração de dados em alguma instituição. Pois é provável que eles se comportem dessa forma, desse modo se isso não ocorrer, é de se suspeitar que houve adulteração.

Mas de onde vem essa coisa sobrenatural? Qual a razão desse padrão estranho chamado de Lei de Benford?

A explicação disso é simples, vejamos uma notícia que saiu hoje (dia 26/12/2020) no G1 sobre a Dengue (sim, ainda existem outras doenças no Brasil além da COVID).

Dengue: DF ultrapassa 47 mil casos em 2020

Temos nessa notícia o número 47 mil casos.
Mas antes dessa notícia era esperado que tivéssemos 30 mil casos.
Antes dessa, devemos ter a notícia 20 mil casos;
Antes dessa, devemos ter a notícia 10 mil casos;

Mas Distrito Federal não é a única região com casos de Dengue. Podíamos ter tido outras notícias (dependendo da data) como por exemplo:

DF ultrapassa 10 mil casos em 2020
SP ultrapassa 10 mil casos em 2020
MG ultrapassa 10 mil casos em 2020
RJ ultrapassa 10 mil casos em 2020

Contudo, nem todas as regiões são afetadas da mesma forma, assim poderíamos ter que dos 27 estados brasileiros, 25 deles passem de 20 mil casos de Dengue. Mas desses 25 estados, talvez nem todos passem de 30 mil casos, podemos dizer por exemplo que 21 estados passaram de 30 mil casos. E assim sucessivamente, chegando que apenas 3 estados passem de 50 mil casos de Dengue.

Isso significa que nas notícias relacionadas aos casos de Dengue, teríamos 27 delas falando sobre o respectivo estado ter passado de 10 mil casos de Dengue. Porém, apenas 25 estados com notícias falando de ter passado de 20 mil casos. E assim diminuindo…

A mesma relação vale por exemplo para números de filhos. A maioria das pessoas antes de ter seu segundo-filho, tem o seu primeiro-filho. Ou seja, se formos olhar os registros de famílias com filhos, o número 1 aparecerá no primeiro dígito com muita frequência, dado que antes de termos o segundo, terceiro, quarto filho, geralmente temo o primeiro.

De forma análoga, quando surge uma doença, antes de termos o segundo caso de infectado, teremos a notícia sobre o primeiro caso. E não só isso, cada cidade, cada região, cada país, terá seu primeiro caso. Então teremos o primeiro caso em Campinas, o primeiro caso em Bauru, o primeiro caso em São Carlos… veja como o 1 aparece nos registros com muita frequência se comparável aos demais. Por exemplo, tivemos o primeiro caso de uma doença extremamente rara. Pode ser que nos próximos anos ninguém naquela mesma região apresente a mesma doença, fazendo com que fiquemos ainda no primeiro caso.

Por isso, o 1 se vê tão presente no primeiro dígito. Pois pensando um pouco em probabilidade condicional, geralmente para termos o 2, precisamos que o 1 tenha ocorrido antes. Fazendo desse mais frequente que o 2, e este mais frequente que o 3, e assim sucessivamente.

Crédito da imagem de capa à Stefan Keller por Pixabay

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *