Müller Thomas

Come funziona una statistica?

Autore: 
Müller Thomas

Introduzione: Sempre più spesso, in televisione, nei giornali, nei dibattiti, sentiamo personaggi politici, economisti, "esperti" di vario genere, citare statistiche, dati statistici, proiezioni statistiche.

Solitamente queste persone si appoggiano su di un ragionamento molto semplice e molto diffuso tra gli ascoltatori; l'opinione che vuole la staitistica essere un ramo della matematica, non sottoposta all'influenza di opinioni. Si tratta insomma di dati "oggettivi".

L'imbarazzo è totale quando in un confronto diretto due persone citano dati (magari lunghi e complicati impressionandoci con una memoria evidentemente fuori dal comune, probabile causa della loro personale fortuna e della ragione per cui loro sono lì e parlano mentre noi ascoltiamo) e ci accorgiamo che a distanza di pochi minuti si riferiscono a statistiche dal soggetto pressoché identico, ma sparano cifre completamente diverse. A questo punto l'ascoltatore intelligente è costernato, prova in generale una marcata irritazione e si domanda come sia possibile che due persone citino cifre completamente diverse con tanta noncuranza. Si domanda magari perché non è possibile per un buon matematico riprendere le cifre in questione e sbugiardare l'impostore di turno.

L'ascoltatore intelligente ha ragione ad innervosirsi. In effetti la statistica è un ramo della matematica, ed è oggettiva. Quello che non è oggettivo sono le infiorettature linguistiche che permettono di manipolare i dati al furbastro di turno. Per spiegarvi brevemente come questo sia possibile mi servono dei dati statistici. Nel pieno rispetto delle leggi del copyright e della privacy ho scelto una fonte di dati che mi sembra oggettiva, neutrale e assolutamente priva di connotazioni politiche. Ho spulciato le statistiche di www.lankelot.eu da ottobre 2006 a febbraio 2007.

Ora, amici lettori, tutti sappiamo che questo è un sito no profit, le statistiche sono fornite gentilmente tutti i mesi dal'amministratore e per quanto non ci sia una commissione di vigilanza possiamo supporre che la fonte sia affidabile, in base alla banale constatazione che inventarsi i dati prenderebbe tempo  e sarebbe completamente idiota. È grossomodo il motivo per cui ho spulciato questi dati invece di inventarne di mia iniziativa.

Naturalmente questa è un'ipotesi che risulterebbe invalidata se www.lankelot.eu fosse una nota multinazionale con fatturati miliardari e i nostri dati riguardassero quotazioni borsistiche. Voglio rassicurarvi: solitamente in queste situazioni esistono controlli indipendenti e manipolare i dati statistici è un reato penale.

Per il resto dell'articolo considereremo che G. Franchi, integerrimo matematico di fama mondiale, ha fornito i dati su cui ci basiamo a due équipes di statistici, la prima diretta da M. Bonaventura, la seconda da T. Mueller. Il gruppo diretto da M. Bonaventura fornisce elaborazioni statistiche all'onorevole A, che ha un diretto interesse nel successo di www.lankelot.eu, mentre T. Mueller & Alumni forniscono i dati all'onorevole B. accerrimo rivale di www.lankelot.eu, notoriamente covo di sedicenti anarchici e rivoluzionari, e che è assolutamente motivato ad affondare il sito.

 Per l'intera durata di questo articolo l'unica fonte di dati reali sono le statistiche di www.lankelot.eu Ogni altro riferimento a persone o accadimenti reali è puramente casuale.

I dati: Le statistiche che seguiranno saranno semplici, per l'ottima ragione che io non sono un matematico, e presenteranno alcune facilissime manipolazioni. Per capirle al meglio occorre però soffermarsi sulla sorgente di dati, unica, oggettiva, fondamentale.

 


giorno 29 32 36 40 47 62 72 79 86 91  
visitatori 387 470 521 519 564 591 661 709 742 776  
                       
giorno 94 101 108 114 122 126 134 141 148 164 174
visitatori 837 1109 1226 1230 1139 1109 1192 1164 1318 1352 1411

Si tratta, lo avrete capito, dei dati sul numero di visitatori medi che quotidianamente ci visitano. Vi posso dire che il primo dato (387 visitatori) riguarda il 29 ottobre del 2006. Gli ho attribuito il valore 29, il ventinovesimo giorno di statistiche. Dunque questa statistica parte in realtà da inizio ottobre, anche se sappiamo benissimo che www.lankelot.eu esiste da luglio. In seguito mi sono limitato a contare i giorni fino ad arrivare al centosettantaquattresimo giorno, l'ultimo dato a disposizione. Il rilievo è stato fatto in modo superficiale e contiene probabilmente dele sviste, ma il fatto è ininfluente. Prendiamo questi dati come validi.

Potremmo essere interessati a guardare la progressione su di un grafico. Eccola:

Proviamo a commentarli insieme: a prima vista i dati assomigliano a un biscione con la scoliosi, ma se facciamo un grosso sforzo immaginativo possiamo vederci passare una retta in mezzo. Il fatto che i dati siano così irregolari è un buon segno. Significa che sono dati veri.

Se vi mostrano un grafico con dei punti tutti ben allineati è segno che qualcosa di losco si cela dietro ai risultati.

La qualità di un buon statistico (diciamo la parte di libertà inventiva che gli è concessa) è data dal "vedere" un comportamento particolare nella disposizione più o meno caotica di una serie di punti. Decidere che il comportamento è lineare, esponenziale, costante, decidere che ad un certo momento il tipo di regime cambia, è il compito dell'uomo davanti alla macchina.

Ad esempio potrei decidere che da ottobre a novembre abbiamo una retta, poi ancora una retta ma con una pendenza diversa. Saper giustificare eventuali sbalzi, decidere se sono importanti per il comportamento generale è il vero lavoro di chi studia statistica. Ad esempio i nostri dati hanno una gobba verso il centoventesimo giorno, dicembre. Ora potrei decidere che si tratta di un normale aumento dell'interesse dovuto al periodo natalizio, oppure affermare che si tratta di un fatto di altro genere (ad esempio in dicembre ha avuto luogo un particolare evento triestino, ergo scelgo di spiegare l'improvviso aumento con la rilevanza internazionale dell'evento in questione). Va da sé che questo genere di "giustificazione" ha esiti diversi su di una statistica. Ad esempio se fossi nel consiglio d'amministrazione della multinazinale lankelot, fatturato stellare, nel primo caso direi "Natale mi fa fare soldi", nel secondo invece direi "la convention di Trieste mi fa fare soldi" il che evidentemente influenza la mia strategia di mercato.

 L'onorevole A e l'onorevole B si danno alla statistica:

Ora è il momento di manipolare i dati in vista di un dibattito.

L'onorevole A vuole sostenere www.lankelot.eu, l'onorevole B invece spera di vederlo chiudere i battenti. Le cifre ci dicono che in 174 giorni (sei mesi) siamo passati da 387 a 1411 visitatori, un incremento del 365%. In media significa un aumento del 60% ogni mese. Il modo migliore di discutere un grafico senza troppi problemi è di tracciare una retta che passi attraverso i dati. Così:

A fianco del grafico vedete un'equazione: è l'equazione che descrive la retta e che mi permetterà di fare una previsione sul futuro. Come? Semplice! Basta prolungarla col righello fino alla data richiesta e leggere il grafico. In questo modo l'onorevole A potrà dirvi che entro gennaio 2008, il sito www.lankelot.eu potrà vantare ben 4000 visitatori al giorno, un incremento superiore al 1000%!

A questo punto l'onorevole B., sfoggiando uno dei suoi noti sorrisi, vi sommerge con un logorrio di dati, affermando che lankelot non andrà oltre i 2000 visitatori al giorno entro il 2008, un modestissimo incremento del 70%. Come prego? Da 1000 a 70? Da 4000 a 2000?

Ecco come l'onorevole B. ha ricavato i suoi risultati:

 

Vi prego di notare che i dati sono esattamente gli stessi. Tuttavia l'onorevole B. ha deciso di interpolare (interpolare è il metodo matematico con il quale facciamo passare una curva attraverso una nuvola di punti) con una curva diversa, un logaritmo in questo caso. Il logaritmo "cresce" molto lentamente, ecco perché arriva soltanto a 2000 visitatori entro gennaio. E l'incremento percentuale? Facile!

L'onorevole A e l'onorevole B (rispettando il noto cliché della malafede par condicio) non vi hanno detto rispetto a quale dato di partenza calcolano gli aumenti, vi hanno solo detto la loro previsione futura. In questo caso l'onorevole A ha sottointeso che l'incremento si calcola dal primo dato di ottobre (387 visitatori) ai suoi previsti quattromila. Invece l'onorevole B. ha ritenuto giusto calcolare a partire dall'ultimo dato di febbraio (1411 visitatori) fermandosi poi a 2000, +70%.

La matematica da leggermente ragione all'onorevole A, lo possiamo notare leggendo il valore indicato in R2 nei grafici. Più il valore è vicino a 1 migliore è la qualità del lavoro. Tuttavia l'onorevole B. può difendersi affermando che il fattore novità non spingerà più la crescita nel prossimo anno. Insomma la manipolazione statistica scelta è difendibile in entrambi i casi.

Ora voglio farvi notare che in un dibattito i risultati non sono legati a chi ha fatto il miglior lavoro statistico, ma a chi sfoggia i più bei sorrisi e si mostra più convinto delle proprie cifre. Non è nemmeno necessario fare proiezioni future per avere discordanze consistenti.

Prendiamo la coppia di dati seguente

 


101 108
1109 1226

L'onorevole A. vi dirà orgoglioso che si tratta di un incremento del 10.5% in una sola settimana. L'onorevole B. potrà ribattere dicendo che si tratta di un modesto 9.5% in meno rispetto al giorno 108. Questa differenza si spiega linguisticamente: un incremento significa passaggio da 1109 a 1226, mentre la formula dell'onorevole B. indica la direzione opposta, da 1226 a 1109.

Più tardi sentirete l'onorevole A. eccitarsi parlando dell'impressionante crescita di lankelot nei suoi primi sei mesi di attività. L'onorevole B. invece calcherà la mano sulla variazione di incremento nulla, addirittura negativa a partire da dicembre. Di nuovo i termini si confondono, una volta parliamo del comportamento dei dati (il numero di frequentatori aumenta) la seconda volta parliamo del fatto che aumenta in modo costante, in altre parole l'aumento non aumenta. La variazione dell'incremento (l'aumento) è zero.

I dati sono chiarissimi, il numero di visitatori cresce mensilmente, ma quello che lo spettatore ricorderà delle parole dell'onorevole B. è nullo.

La stoccata finale potrebbe darla parlando della diminuzione della variazione dell'incremento. Significa che (secondo le proiezioni dell'onorevole B.) l'aumento di visitatori è in costante diminuzione, il che non gli impedisce di essere un aumento (dunque un fatto positivo, andiamo migliorando) ma di nuovo la parola chiave è diminuzione, uno smacco.

La trappola tesa si basa sull'ignoranza di chi ascolta (non dimentichiamoci che i nostri politici sono quasi sempre degli economisti, la statisica è il loro nido d'amore) e soprattutto sul fatto di non dover mostrare le fonti, oscuro nugolo di dati troppo confuso per essere spiegato in pochi minuti. Se si vende bene, in barba al trend positivo, l'onorevole B. avrà partita vinta e lankelot dovrà chiudere.

Cosa concludere da tutto questo? Cave B.

ISBN/EAN: 
0000

Commenti

Done.
Attendo un dibattito in merito.

le cosiderazioni che hai fatto sono fantasticamente vere...soprattutto quelle riguardanti le interpretazioni di trend positivi. Comunque esistono dei metodi statistici, come la valutazione dell'R, che fanno capire quanto i test possano veritieri, solo che spesso i campioni non sono realmente significativi e...si perderebbe la credibilità mostrando i test di affidabilità!
La manipolazione verbale però indubbiamente esiste, ed hai anche spiegato bene il perchè: l'ignoranza. In realtà la statistica viene proposta come una scienza oscura, verso la quale nutriamo un timore reverenziale quasi innato...se qualcuno invece ci dicesse che è una scienza piuttosto abbordabile le cose cambierebbero drasticamente perchè probabilmente non avremmo più bisogno di un interprete dei dati statistici! Questo è un discorso applicabile a delle statistiche semplici, come quella che hai proposto...

Per concludere: condivido tutto quello che hai detto!! Chissà cosa ne pensa l'ISTAT...

Premessa: so fare a stento le quattro operazioni, ma il titolo dell'articolo mi ha molto incuriosita. Probabilmente perchè sono tra quegli ascoltatori che, non avendo la giusta preparazione, si imbestialiscono assistendo a dibattiti in cui le due parti citano dati diametralmente opposti, senza permettermi di riuscire a capire chi sia più attendibile.

La tua pagina invece risulta estremamente chiara persino per me. Grazie!

Cave B.!
Accidenti che analisi impressionante:).
Stasera ti pubblico il nuovo grafico, sono convinto che saprai illuminarci su più livelli come hai appena fatto.
Tutto mostruosamente chiaro.

Come volevasi dimostrare... le mie esili conoscenze di statistica già erano sufficienti al disgusto per strategie subdole d'economia politica, adesso ne vedo conferma e maggiore completezza di conoscenza.

Pensare che non ci siano dei parametri universali di confronto, sui quali interrogarsi civilmente e onestamente sull'andamento econimico del sistema è, non semplicemente deplorevole, ma criminale. Criminale. Perché cancellare la capacità di giudizio razionale all'elettorato significa estirparne il libero arbitrio. Da ciò una democrazia che è solo populismo e propaganda e appecoramento. La nostra, tragicamente.

Ma questa è solo la punta dell'iceberg. Mi vengono in mente le tecniche di oratoria manipolative e tutti gli studi pubblcitari e non per indottrinare, anche inconsciamente, il cittadino a pensare come il partito e abbinarsi a tutto il suo modo di visione del mondo, rispecchiandosi e votandolo. Naturalmente senza credito per realtà o verità. Sempre solo manipolazione. Sporca e perfettamente legale.

E io dovrei dare possibilità a persone che fanno dell'ipocrisia linfa vitale e che sorridendomi e stringendomi la mano pensano a quanto sono furbi e a quanto riescono scientificamente falsati a gestire i sentimenti e la vita delle persone? Mi fanno schifo. Meritano odio e completa svalutazione.
Ma è da pazzi sentire inconcepibie assenza di etica e capacità concreta?

Fondamentale: gran bel lavoro, grafici illuminanti e pazienziosi e puntuale organizzazione dei punti trattati. Sempre più appetibile agli allergici dei temi scientifici. E questo studio non solo è godibile sempre, ma decisivo anche per motivi d'attualità e che a tutti riguardano. Un caso di scossa delle coscienze, dovrebbe e credo riesca.

Ti interessa un lavoro (non retribuito nella clinica che sto per fondare per la cura dell'ansia da matematica ? Se qualche insegnante di matematica avesse la tua passione nel far digerire il calcolo, avremmo qualche cervello in letargo in meno in uscita dalle scuole... BRAVO ASSAI ... Ma che mestiere fai ?

Ho letto con attenzione. Tre volte. Lottando contro la mia idiosincrasia per tutto quel che è numero. Ma quindi vuoi dire che quando l'onorevole B. (ohibò, l'iniziale è voluta) dice che dai suoi mirabolanti sondaggi risulta che noi eravamo più felici quando lui governava, egli mente? Cribbio! :-))

7> Il bello è che non hai bisogno di mentire.
Per restare nel nostro esempio con la B ed esulare da contesti troppo personale, non si sa mai che qualcuno colga allusioni inesistenti, diciamo che B. è un noto impresario proprietario di una casa editrice molto importante.
B. vuole venderto i diritti d'autore sull'opera del defunto scrittore italiano Dino Campana.
Ti sciorina una lunga lusta di meritevoli esempi di autori, siti internet e perfino antologie che citano il nostro, ti legge brani delle sue migliori poesie e decanta le qualità della sua più nota opera di gioventù: I canti orfici.
Infine ti dice che il poeta ha goduto negli ultimi anni di vita di un lungo e sereno paeriodo di riposo.

Tu pensi (abbastanza naturalmente) che il lungo periodo di riposo significhi lunghi anni a scrivere altri libri di cui stai acquistando i diritti. In realtà il pover'uomo è morto in un ospedale psichiatrico e dopo i Canti Orfici non ha scritto un accidente di niente.
B. non mente; sei tu che hai capito male.
Diciamo che B. non facilita la tua comprensione, ma questo non è mentire, questo è incoraggiare un cliente all'acquisto. Pensiero liberale.

5> Eh. Non è da pazzi, è una delle spiacevoli conseguenze dell'avere una cultura. E di vivere in mezzo a ignoranti che con il loro voto inconsapevole... lasciamo stare.
Comunque la genialità del sistema è proprio quella. Potresti essere libero, avere dei diritti, vivere in uno stato civile, ma sbandierandoti in faccia tutte queste cose vieni bistrattato da tergo dal governo di turno.

4> Grazie Franco. Stamattina guarda la posta.

devo dire che è una pagina ben fatta. Così distante da me e dagli abituali cliche di scrittura per argomenti del genere. Grazie. E ti dirò, ho persino quasi capito :-). Il commento n. 8 poi aumenta la mia stima per l'autore della presente

"T. Mueller & Alumni" noto brigatista.
E non dimentichiamoci le ottime statistiche fatte a partire da pessimi dati. è la sopecialità delle agenzie pubblicitarie... se vi pubblicizzano per esempio uno shampoo che aumenta del 300% la luminosità dei capelli, ma non vi dicono come la definiscono... potrebbero anche leggerla nell'ultravioletto o nell'infrarosso e non lo sapreste mai...

È successo un fatto strano Franco: è apparso un comento di Cosimo che non esisteva prima e si è inserito tra alcuni già esistenti invece che in fondo alla lista. È normale?

Comunque per rispondere a Cosimo: sono laureato in fisica (con una vecchia laurea, oggi la chiamate master), l'ho avuta giusto in tempo nel 2006. Attualmente sono disoccupato e seguo un dottorato in ricerca in filosofia delle scienze, a Losanna. Dunque diventerò dottore in lettere senza essere laureato. È un po' strano.
Un giorno mi piacerebbe insegnare o darmi al giornalismo scientifico, ma nessuna testata si è dimostrata interessata per il momento.

molto brillante e molto interessante anche per me che nelle statistiche mi perdo di solito, soprattutto quando i politici iniziano a spararsi l'un l'altro bordate di dati e alla fine non capisco più niente. Grazie mille!

14. Era il primo commento del neoiscritto Cosimo, l'ho trovato in moderazione. Nessuna stranezza, è prassi;)

16> Recentemente ho dovuto svolgere una ricerca statistica per conto del comune di C*** che voleva uno studio sull'ampliamento del proprio cimitero. Mi hanno dato i dati sulla demografia, il piano regolatore e credevano che si potesse ricavare magicamente un risultato affidabile.
La fede illimitata nella statistica è una delle piaghe peggiori di cui soffriamo.
Ci si perde facilmente anche se si è "del mestiere" e spesso si vedono statistiche che fanno accapponare la pelle.
Un sei mesi fa il corriere della sera presentò una statistica sull'eventuale impatto di un meteorite che avrebbe colpito la terra con una probabilità "fino al 10%" (una formula del genere, non ricordo la cifra sparata, ma fino a non è una formula molto seria) e che avrebbe devastato una zona copresatra l'Australia e la Groenlandia (esagero, ma non siamo lontani).
Se non fosse stato per la mia particolare attenzione ci sarei passato sopra senza notare questa immensa cazzata. Ti immagini cosa direbbe Franco se scrivessero che il suo è uno stile collocabile tra il post-modernismo e il neo classicismo? Magari permettendosi di pubblicareuna simile castronata su di un giornale?
O magari che è un autore nato tra il 1200 e il 2300 dopo cristo, già che ci siamo.

Cosimotrombetta, mio sodale e amico, uno degli artefici del successo di Disorder a Sassari. E' un giovane professionista e con sua moglie si dilettanno di un numero di cose stranissime e bellissime. Fra queste la matematica. Non avevo dubbi che questa pagina avrebbe attirato la sua inossidabile curiosità

meno male che non mi perdo solo io allora....
questa storia del meteorite l'avevo sentita anch'io e qui a casa ci era venuto in mente il film Armagheddon. A dir la verità mi ero chiesta come avessero fatto a fare certi calcoli, insomma le statistiche si possono manipolare, interpretare usare per sparare le peggiori cavolate.

19. Saluto e omaggio l'avvento di Cosimo!

Scusate il mio intervento, dopo mesi dalla pubblicazione, ma sono nuovo. nella statistica esistono comunque dei test (se non sbaglio il p-value) che ci permettono di stabilire con quanta forza possiamo sostenere un'ipotesi. Raramente sento i politici citare il livello di significatività di un parametro di una relazione. Quindi semplicemente non dobbiamo fidarci dei risultati di un'analisi se questi non sono corredati da test oppurtuni.

Aggiungo inoltre che bisogna anche prendere in considerazione la numerosità e la strategia di campionamento del campione oggetto di analisi. Siamo sicuri che le unità introdotte nei campioni costruiti per un analisi politica di un problema siano estratte devvero casualmente?

Mi ricorda i primi tre anni di lavoro sul web, in cui tra le altre cose "leggevo" ed interpretavo dei log delle visite ad un sito dovendo spiegare ad un cliente cosa era successo, perchè era successo etc, sia per aumenti di traffico imprevisti, sia per mancate aspettative ("ho inviato una newsletter, perchè mi hanno risposto in pochi?"), sia per totali contraddizioni ("abbiamo migliorato il sito ma gli utenti sono diminuiti..."). Bei tempi!

Datemi un file di log e vi spiegherò l'effetto serra! :)

Il primo commento ufficiale di LAMASE!
Momento storico. Aspettiamo il primissimo pezzo...;)

...sto uscendo allo scoperto...

era ora!

"Proviamo a commentarli insieme: a prima vista i dati assomigliano a un biscione con la scoliosi, ma se facciamo un grosso sforzo immaginativo possiamo vederci passare una retta in mezzo".

Grande, Thomas! Mi piace il tuo modo immaginifico di descrivere cose che, al contrario, appaiono prive di fantasia.

Pensa, ho studiato anch'io statistica, ho preso addirittura 28 all'esame all'università. La ricordo come una materia davvero ostica per la mia forma mentis, al pari dell'anatomia (aripensa, ho dato un esame pure su quella: l'anatomia del cervello umano).
Ho rimosso tutto, o quasi, ovviamente:)

La statistica non è il mio ramo e non mi è mai piaciuta, ma per motivi abbastanza evidenti ho dovuto passarci attraveso.
Questo testo non pretende certo di essere un'esposizione esaustiva dei problemi legati all'affidabilità di un testo; piuttosto vorrebbe mostrare come da dati buoni si possono fare elaborazioni pessime epresentazioni anche peggiori.
Cave B.