Quello che segue brevemente sono le riflessioni di un operaio della
statistica. Non ho mai fatto modelli né giocato con gli algoritmi, ma
quando hai a che fare con "dati" un minimo di statistica, una "occhiata"
a come vanno, ogni tanto gliela dai, o almeno dovresti. Sottolineo
dovresti perché poi scopri che "la gente", quella che lavora in
laboratori/istituti di ricerca/ ecc, quella che eventualmente pubblica,
non sempre questa cosa di "curare la qualità del dato" la fa. E' una
cosa che tendenzialmente si apprezza ad inizio di carriera, quando si
prova a riprodurre qualcosa di pubblicato con scarsi successi: a inizio
carriera ti dai del cretino, qualche anno dopo prendi su il telefono e
cerchi quello che ha pubblicato, quando arrivi al paio di decenni di
(non-)carriera sai più o meno chi pubblica, come e cosa ed associ un
"tasso di affidabilità" tuo personale a quello che leggi.
Poi ad
avere dati che negli anni si accumulano può accadere che un modellista
bussi alla tua porta con qualche brillante idea per un "lavoretto
insieme". Il lavoretto insieme si può affrontare in diversi modi, da "ti
do i dati e dammi il coauthoring" fino a "ma fammi un attimo vedere
come stai facendo girare il modello": in mezzo il mondo delle sfumature (
a secondo anche delle necessità o dei progetti in corso). Chiudo questa
premessa, a beneficio dei non addetti ai lavori, per tornare alla breve
aneddotica di questi mesi in cui, "tutti a casa", c'era da giocare con i
dati, spesso provenienti da più fonti: inevitabile che qualche gioioso
modellista bussasse alla mia porta per quel famoso "lavoretto"
E
magari quel qualcuno c'ha fatto su un PhD... o, non pago, un
postdoc...segue tesisti...diciamo non è di primo pelo...sembra quasi
serio....fino a quando non ti esce con " senti poi qua ho fatto la
regressione, ma per sbaglio l'ho fatta anche lineare e ti dirò, viene
meglio: tu che dici la tengo lineare?"
(col tono di "Tu che ne
pensi: metto il completo rosso o lo spezzato?"). Al che bisogna armarsi
di pazienza (colleghi...seri....) e porre delle domande inframezzate da
risposte cammuffate da domande, del genere:
- ma tu normalmente che correlazoni hai tra le grandezze? perché nelle altre pubblicazioni NON correlavano linearmente...
- ma hai notato che questi dati in specifico rispetto agli altri
portano dietro elevata incertezza e cambia ordine di grandezza? Come ne
hai tenuto conto?
- ma con che criterio valuti se siano comparabili o utilizzabli insieme i vari dati?
- ...no perché, poi l'esperto sei te, generalmente quando ha dati molto
dispersi, una nuvola, è facile che quello che ci passi meglio dentro
sia una retta...o anche una polinomiale...anche una curva a mano libera.
La domanda è se ha senso che ci passi, dal momento che il comportamento
di queste grandezze "sarebbe" noto...sempre in teoria.
(Quasi)
fine dell'aneddotica spicciola. Per la cronaca, sopra non si parla di
dati da Covid, personalmente non mi sono andata a guardare nenache un
modello Covid... anche sui dati, mi sono informata poco...ma la mia
esperienza con dati e modelli è in media come descritto sopra.
Sul
discorso alla moda del momento (la curva del COVID) così a sentimento,
ci vedo una grande disomogeneità, non solo da nazione a nazione, da
regione a regione, ma anche tra i dati che si sono prodotti ad inizio
anno rispetto a quelli che si producono ora...e stante che i modelli
hanno un loro uso e senso, ma non hanno mai fatto miracoli, se vengono
nutriti con dati disomogenei o con alto bias può accadere che ci passi
in mezzo bene una retta...
Per cui, quando guardate i modelli ed i
dati in giro (voi, io continuo a non farlo), ecco magari ponetevi
qualche domanda, non solo certezze.
Epilogo
"Ah, allora sì,
mi sa che so la risposta da solo. Forse è meglio che lascio perdere la
regressione lineare e riguardo meglio i dati."
Mi sa.
(immagine da xkcd, ovviamente - NdCS)
Nessun commento:
Posta un commento
Nota. Solo i membri di questo blog possono postare un commento.