O Paradoxo de Simpson
“Há três tipos de mentiras: mentiras, mentiras cabeludas e a estatística” – Mark Twain
“Cerveja! A causa e a solução de todos os problemas da vida” – Homer Simpson
No início da década de 1970, a Universidade de Berkeley se tornou uma das primeiras a ser processada por discriminação sexual. De acordo com os dados do outono de 1973, dentre os estudantes que haviam se inscrito na instituição, 44% dos homens foram aprovados contra apenas 35% das mulheres. A diferença era tão grande (ou “significativa”) que só poderia indicar que o processo seletivo desfavorecia as mulheres.
A realidade se mostrou um tanto mais complexa: analisando os números de aprovação por gênero nos seis principais departamentos, descobre-se que quase todos com exceção de dois deles tiveram um grau de aprovação feminina maior do que a do sexo oposto:
Departmento | Masculino | Feminino | ||
---|---|---|---|---|
Inscritos | Aprovados | Inscritos | Aprovados | |
A | 825 | 62% | 108 | 82% |
B | 560 | 63% | 25 | 68% |
C | 325 | 37% | 593 | 34% |
D | 417 | 33% | 375 | 35% |
E | 191 | 28% | 393 | 24% |
F | 272 | 6% | 341 | 7% |
Isto é, apesar dos números agregados de aprovados por sexo indicarem que mulheres tiveram maior dificuldade em serem aprovadas do que homens, quando analisados separadamente por departamento – e mesmo quando outros fatores são levados em conta – descobriu-se que de fato havia na Universidade de Berkeley um pequeno viés em favor das mulheres. A Universidade foi absolvida das acusações de discriminação.
Para entender como os números podem sugerir correlações opostas dependendo de como são apresentados basta procurar pelos departamentos mais concorridos. Das 1.835 mulheres inscritas nos seis departamentos, 1.504, ou 82%, concorreram a departamentos muito disputados em que menos de um terço dos inscritos (homens ou mulheres) acabaram aprovados. Já entre os 2.691 homens, 1.385, ou 51,5%, concorreram a departamentos onde mais de dois terços dos inscritos foram aprovados. Ainda que os departamentos mais concorridos tendessem a aprovar mais mulheres, o fato delas se concentrarem nos departamentos que aprovavam menos – em geral – gerou a estatística agregada de desfavorecimento.
O viés nos dados agregados desfavorecendo o sexo feminino não estava no processo seletivo, mas em etapas muito anteriores do processo, determinados ultimamente na própria escolha do departamento de inscrição. “Mulheres são limitadas em sua socialização e educação a áreas de graduação que são geralmente mais lotadas, menos producentes de diplomas completos, menos patrocinadas e que frequentemente oferecem menos prospectos de emprego profissional”, apontaram Bickel et al em uma análise publicada na Science.
Este paradoxo em que dados agregados sugerem uma correlação que pode ser completamente revertida quando os dados são analisados de forma segmentada é conhecido como o paradoxo de Simpson, em referência ao estatístico britânico Edward Simpson. De fato qualquer correlação pode ser revertida com a adição de fatores arbitrários.
A entrada na Wikipedia tem outros exemplos fascinantes, e eles ilustram não que a estatística seja a forma mais cabeluda de mentira já inventada pelo homem, mas como relações causais são essenciais na análise de dados.
Por trás de cada estatística há uma história, e conhecer como os dados foram coletados, o que eles significam e como se relacionam permite desfazer o paradoxo. Não há realmente contradição quando entendemos que é sim possível que uma universidade não desfavoreça mulheres em seu processo seletivo, mas que o desfavorecimento ocorra em estágios anteriores ao próprio processo seletivo, resultando em números que mostram como apesar do processo seletivo apresentar mesmo um pequeno viés a favor das mulheres, ao final o número de aprovados continuar demonstrando as dificuldades que enfrentam.
[Detalhe fascinante indicado pelo ainda mais interessante
Discussão - 7 comentários
Ou seja...A questão da "ausência de afrodescedentes em cursos de nível superior", que originou as cotas raciais, podem ter sido causadas por outros fatores que não a discriminação ou falta de oportunidades no processo seletivo das universidades
as evidências indicam que a questão da afrodescendencia se correlaciona fortemente com a baixa renda, a baixa renda com desagregação familiar e pouca cultura por parte de pais....mas isso é verdade no Brasil...em outros países e culturas, erra relação não necessariamente existe
ops.: erra=essa
@André,
A justificativa das cotas *não* é a discriminação no processo seletivo das universidades. De todo modo, mesmo desagregando por curso, os negros apresentam menores taxas de aprovação.
@Mori,
Algo similar ocorre - mas no sentido inverso - com a diferença salarial entre homens e mulheres no Brasil. No geral, a diferença salarial por gênero tem diminuído (lenta, mas progressivamente), porém, quando olhamos dentro de cada ocupação, o abismo tem *alargado*.
http://neveraskedquestions.blogspot.com.br/2012/04/evolucao-da-diferenca-salarial-por.html
-------
[]s,
Roberto Takata
tudo o mais constante, mulheres tendem a ganhar menos, pois a possibilidade de gravidez faz com que a produtividade dela ( produção por tempo trabalhado ) seja menor que a do homem.
Nas ciências humanas, (in)felizmente não há constantes. Só na física, química e ( talvez ) na biologia.
( ... ) , Simpson’s paradox is the fact that the correlation between two variables can actually be reversed when additional factors are considered. So two variables which appear correlated can become anticorrelated when another factor is taken into account.
http://www.michaelnielsen.org/ddi/if-correlation-doesnt-imply-causation-then-what-does/