giovedì 27 settembre 2018

LEVATEGLI DI MANO IL SOFTWARE STATISTICO

Alla fine tutta la questione la riassume una vignetta di xkcd, tra le migliori di sempre:



Ormai il data mining per tirare fuori correlazioni tra pinco e pallino sono anni che va di moda in campo pubblicazioni di materia medica. E da anni ne vengono fuori di tutti i colori.
Ho visto rimbalzare questa in giro: https://academicjournals.org/journal/JPHE/article-full-text-pdf/C98151247042 .
"Impact of environmental factors on the prevalence of autistic disorder after 1979": "Fattori ambientali", giusto per fare un po' di fumo, perché poi si va a cascare sempre lì: vaccini e autismo.
Pare che il metodo vero (non dichiarato) sia stato: vediamo se troviamo qualcosa che fitta bene. E lo trovano, grazie all'oculato uso di sw statistico. Ma hanno la disinvoltura di mettere accanto anche le due curve, cosa che evidentemente, per gli autori, è ininfluente per la validità della tesi.
E lì, letteralmente, casca l'asino.
Osservate l'immagine. Le diagnosi di ASD nel tempo sono di fatto una retta. La copertura dell'antivaricella è invece una curva evidentemente asintotica (non può essere diversamente, la copertura non può andare oltre il 100%).





Nei primissimi anni della campagna di immunizzazione era legittimo avere dubbi: andamento all'incirca lineare delle coperture, andamento all'incirca lineare delle diagnosi. Qualcuno li ebbe, in California, mi pare, e rilevò che comunque i conti non tornavano, perché le diagnosi crescevano più velocemente delle coperture. In questo specifico caso è l'esatto contrario, ma la cosa non ci interessa perché qua abbiamo il quadro completo. Guardare la seconda metà del grafico: coperture piatte, diagnosi crescenti - non stanno assieme neanche a prenderle a calci. In breve, è come voler forzare un cubo in un foro a forma di trangolo (equilatero e con lato uguale o minore allo spigolo del cubo, per essere precisi).
Ovviamente, se non si ha occhio per questi dettagli va bene tutto, e poi ci si ritrova in discussioni del genere "negate l'evidenza" vs "film con Nicolas Cage e morti annegati in piscina".
La cosa fa il paio con quest'altro articolo, apparso su Science nel 2015, non su un open access qualsiasi, quindi ben diverso impact factor.
Si tratta di "Long-term measles-induced immunomodulation increases overall childhood infectious disease mortality", http://science.sciencemag.org/content/348/6235/694 .
Wow! Perché si sa che il morbillo lascia il sistema immunitario provato per qualche tempo dopo la malattia, ma tre anni... chi l'avrebbe detto.
E infatti venne rilanciato da Focus e chissà quanti altri ne seguirono l'esempio. Poi lo leggi e ti cadono le braccia. Anche qua data mining:
 "Applichiamo una funzione gamma". Come?
Non è dato saperlo, ma viene da sospettare in modo da pesare di più i punti che giocano a favore della tesi, che sarebbe: le morti infantili avvenute entro 3 anni dal morbillo sono da collegare al morbillo (grazie, JDB).
E poi ti ritrovi dei grafici in cui la metà dei punti sta fuori dal Confidence Interval.

E questa roba ovviamente è stata usata da qualcuno che voleva ribadire l'esageratamente alta pericolosità del morbillo a qualsiasi età. Felicitazioni a costoro per il background statistico. Ma qui non è neanche questione di cultura statistica: qui si tratta di avere un minimo di occhio per i dati. Anzi, non di occhio: di rispetto.


Nessun commento:

Posta un commento

Nota. Solo i membri di questo blog possono postare un commento.

CHI SONO? UNO COME TANTI (O POCHI)

Con una laurea in Chimica Industriale (ordinamento ANTICO, come sottolineava un mio collega più giovane) mi sono ritrovato a lavorare in ...