Bavaud Francois e Roux Patricia

Paradossi di statistica : il paradosso di Simpson

Autore: 
Bavaud Francois e Roux Patricia
Riassunto : questo articolo divulga un caso particolare di paradosso di Simpson, noto nella bibliografia come “means inversion paradox”. Il contenuto del testo si basa su di un articolo di Bavaud/Roux (università di Losanna e di Ginevra) del 1998. La prima parte è un esempio illustrativo appositamente creato; le cifre sono riprese da una presentazione di Jean-Philippe Antonietti (Università di Losanna). Si discute l’affermazione “se in ogni sottogruppo di una popolazione, individui di un certo tipo (diciamo uomini) seguono un dato comportamento più dell’altro gruppo (donne), allora possiamo concludere che nell’intera popolazione avviene la stessa cosa. Questa affermazione è falsa; di seguito sono discussi i dettagli.
 

Calandosi nella parte...

Immaginiamo che la nota rivista italiana lankelot (letteratura e sogni), si trovi ad affrontare una scabrosa situazione. Un noto imprenditore, interessato ad affossare la rivista, pubblica una serie di attacchi diretti contro il redattore, Franchi.

In particolare lo accusa di discriminazione contro le donne: afferma infatti che nell’ultimo anno la rivista ha ricevuto 1200 articoli passati al vaglio dei reviewer di lankelot. 600 sono stati scritti da uomini e 600 da donne.

Tra i 600 sottoposti da uomini, ne sono stati accettati 350, vale a dire il 58.3%; dei seicento sottoposti da donne, ne sono stati accettati soltanto 250, vale a dire il 41.7%. L’imprenditore scrive, in un rovente articolo, che si tratta di un chiaro caso di discriminazione.

Franchi, comprensibilmente nervoso, controlla i dati: tutto vero, l’imprenditore non mente. Allora si rivolge, piuttosto arrabbiato, ai responsabili delle varie sezioni di lankelot, vale a dire arti (cinema e musica), letteratura e scienze, per avere una spiegazione, e scovare il responsabile della figuraccia. 

Dalla sezione scienze, Mat risponde che sono stati proposti 400 articoli: 200 scritti da uomini e duecento da donne. Ne sono stati accettati la metà per gli uomini e la metà per le donne (cento e cento), vale a dire il 50% del totale. Nessuna discriminazione quindi.

Dalla sezioni arti, Federico risponde che sono stati sottoposti 400 articoli, 300 scritti da uomini, e 100 da donne. Sono stati accettati 225 articoli di uomini (il 75 %) e 75 articoli scritti da donne (il 75 %). Anche qui, nessuna discriminazione.

Infine, arrivano i dati di Marina: la sezione letteratura ha ricevuto 400 articoli, 300 scritti da donne, 100 scritti da uomini. Sono stati accettati 75 articoli scritti da donne (il 25%) e 25 articoli scritti da uomini (il 25%). Nemmeno qui si ravvisano irregolarità.

Franco a questo punto è imbarazzato e conta i dati:

-         sono stati proposti in totale 1200 articoli (400 per ogni sezione).

-         Sono stati proposti 300+100+ 200=600 articoli, sia per gli uomini che per le donne

-         Sono stati accettati 25+225+100 = 350 articoli scritti da uomini. 350 su 600 significa il 58.3%

-         Sono stati accettati 75+75+100=250 articoli di donne, vale a dire il 41.7%

Quindi l’imprenditore non mente (anzi, è in buona fede), Franco non ci capisce più niente, e i responsabili delle sezioni nemmeno. Cosa succede quindi?

Il paradosso di Simpson:

Succede che siamo in pieno nel paradosso di Simpson. Poco conosciuto persino dagli statistici, il paradosso di Simpson permette a certe condizioni situazioni in cui il comportamento di sottogruppi è diverso dal comportamento complessivo.
 
Il nostro esempio, per dirne una, inverte una situazione perfettamente paritaria a livello di singole sezioni, in una situazione globale in cui le donne sono discriminate. Potrebbe anche accadere di peggio: avremmo potuto avere una situazione in cui gli uomini sono sfavoriti a livello delle singole sezioni, ma le donne sfavorite in totale.
 
Il nostro caso può essere letto così: benché donne e uomini siano trattati in modo uguale, le donne hanno scelto in maggioranza la sezione con i criteri di selezione più duri. Ecco quindi l’origine del paradosso.

Bavaud e Roux presentano cinque casi reali di paradosso di inversione:

-         il tasso di ammissione postgraduate all’università della California è più basso per le donne, ma in ogni singola facoltà la situazione è invertita (le donne scelgono facoltà meno permeabili)

-         Il livello salariale aumenta con il grado accademico e con l’anzianità in America. Ma per una data facoltà si inverte la tendenza. Le università danno salari alti per attrarre nuovi venuti, ma possono limitarsi a piccoli aumenti per mantenere gli impiegati in servizio.

-         Le condanne a morte sono leggermente più alte se ad essere difeso è un bianco rispetto a un nero. Ma se si guardano le vittime, vale il contrario. Le punizioni sono più severe se la vittima è un bianco, e gli omicidi sono intrarazziali.
 
-         In ogni regione della Francia, il consumo di patate è più alto tra i contadini, che tra i non-contadini, ma la tendenza è invertita nel complesso. Molti contadini vivono in regioni dove si mangiano poche patate.
 
-         La mortalità infantile nel Nord della Francia è più alta nelle famiglie in cui la donna non ha un lavoro fuori casa, ma ogni categoria di impiegati ha comportamento inverso. Nelle ragioni di minatori la mortalità è alta, e tradizionalmente le mogli dei minatori non lavorano fuori casa.

Interessante  è anche cercare di capire cosa sia meglio guardare: le sottocategorie o l’insieme dei dati?.È abbastanza chiaro che le sottocategorie sono più chiare, anche se entrambe le scelte sono corrette. Bavaud e Roux sottolineano come non sia possibile trovare condizioni quadro tipiche che permettano di escludere questo paradosso: raccomandano quindi di fare sempre riferimento alle sottocategorie, quando queste sono disponibili. Tuttavia il paradosso di inversione può avere luogo anche con sotto-sottocategorie rispetto alle sottocategorie, e così di seguito.

È chiaro che nessun ricercatore può frazionare indefinitamente i propri dati in sottocategorie. Inoltre al crescere delle sottocategorie, crescono le possibilità di inversione (se ci sono le categorie sesso, ceto sociale, e età, ognuna può presentare correlazioni con ogni altra variabile, e raddoppiare i sottogruppi significa una esplosione combinatoria di controlli da effettuare). Inoltre le variabili non esplicitamente recensite da uno studio possono presentare dei paradossi di inversione assolutamente non controllabili, nemmeno dal più zelante dei ricercatori.
 
Bavaud e Roux presentano un esempio occorso in una ricerca di studi di genere, in cui uno degli autori si è scontrato con un paradosso di inversione, e dettagliano gli aspetti tecnici del problema. Forniscono alcuni criteri, comunque non sufficienti; raccomandano come comportamento di massima prudenza e scambio di conoscenze tra ricercatori, magari nell’intento di stilare una lista di casi particolarmente a rischio nei confronti dei paradossi di inversione.
 

EDIZIONE ESAMINATA e BREVI NOTE

Francois Bavaud e Patricia Roux, The means inversion paradox: when the whole is inverted relatively to each of its parts”

F. Bavaud è professore di informatica e metodi matematici e di geografia all’università di Losanna, vicedirettore della facoltà di lettere. P. Roux è professoressa di sociologia della comunicazione di massa all’università di Losanna (nel 1998 Roux era a Ginevra).

F. Bavaud P. Roux, “The means inversion paradox: when the whole is inverted relatively to each of its parts”, Swiss journal of psychology.
  
Thomas Mueller per lankelot. Prima pubblicazione. 29 giugno 2009
ISBN/EAN: 
000

Commenti

La mia connessione ha deciso di fare le bizze, e non mi compaiono più le barre per giustificare...
potete fare voi?
TM

(adoro quando appaiono i nomi veri nei tuoi pezzi :))) )

"Il nostro caso può essere letto così: benché donne e uomini siano trattati in modo uguale, le donne hanno scelto in maggioranza la sezione con i criteri di selezione più duri. Ecco quindi l?origine del paradosso."

> Micidiale.

"È chiaro che nessun ricercatore può frazionare indefinitamente i propri dati in sottocategorie. Inoltre al crescere delle sottocategorie, crescono le possibilità di inversione (se ci sono le categorie sesso, ceto sociale, e età, ognuna può presentare correlazioni con ogni altra variabile, e raddoppiare i sottogruppi significa una esplosione combinatoria di controlli da effettuare)."

> Questo significa che non dobbiamo dar retta a nessuna statistica presentata da un partito politico: corretto?

Dovrei aver giustificato:). Controlla le righe, a questo punto, ma dovremmo esserci. Pezzo, al solito, estremamente chiaro e interessante.

4> Le condizioni quadro in cui si può creare un'inversione sono abbastanza particolari: eichiederebbe onestà intellettuale da parte di chi presenta i dati.

Le statistiche vanno accettate quando sono svolte da un prgano indipendente e competente. Mai accettare il lavoro amatoriale di un partito.

ricevuto;)

4. Non solo di un partito politico, credo.
In generale dovremmo stare attenti anche noi, quando parliamo e diamo per scontati dei dati che, probabilmente, non lo sono. Quando presentiamo delle cose basandoci su esperienze personali. Chiaro che qui si parla di statistiche ed è cosa un po' diversa.

Pezzo molto chiaro, in ogni caso. Bravo Thomas.

Io sono molto critico verso le "opinioni personali". Spesso prendono il posto appunto dei dati statistici in dicussione che sono ben oltre il livello amatoriale.

La statistica è un modo affidabile e chiaro di analizzare dati; il paradosso di Simpson è una situazione di crisi potenziale all'interno di quel quadro e quindi interessante e pericoloso, perché potenzialmente fuorviante anche se si è in buona fede.

Grazie per l'apprezzamento

9. Sì. Credo che cose come questo paradosso accadano molto più spesso di quanto pensiamo.

Io l'ho scoperto settimana scorsa; dovevo dare una breve lezione di scuola dottorale (mi avevano chiesto di parlare delle mie ricerche) e prima di me parlava J.P. Antonietti. Fa vedere questo paradosso e la mia reazione è
1 controllare i dati
2 chiedere se capita spesso e a quali condizioni

mezz'ora dopo arriva Mat per sentire la mia presentazione. Gli racconto del paradosso e subito prende un pezzo di carta e controlla i conti. Poi cimincia a chiedere "succede spesso?" " a che condizioni?"

Uno statistico direbbe che tra le variabili l'interazione è forte...
sempre fare attenzione alle interazioni, mai dare per scontata una statistica.
Una statistica dice quello che dice. Nulla di più.

inserita una foto - ma ci

inserita una foto - ma ci sono temo problemi di impaginazione. Quando hai 1 secondo, Thom...