martedì 24 novembre 2020

LINEARE ALLA BISOGNA - By Starbuck

 




Quello che segue brevemente sono le riflessioni di un operaio della statistica. Non ho mai fatto modelli né giocato con gli algoritmi, ma quando hai a che fare con "dati" un minimo di statistica, una "occhiata" a come vanno, ogni tanto gliela dai, o almeno dovresti. Sottolineo dovresti perché poi scopri che "la gente", quella che lavora in laboratori/istituti di ricerca/ ecc, quella che eventualmente pubblica, non sempre questa cosa di "curare la qualità del dato" la fa. E' una cosa che tendenzialmente si apprezza ad inizio di carriera, quando si prova a riprodurre qualcosa di pubblicato con scarsi successi: a inizio carriera ti dai del cretino, qualche anno dopo prendi su il telefono e cerchi quello che ha pubblicato, quando arrivi al paio di decenni di (non-)carriera sai più o meno chi pubblica, come e cosa ed associ un "tasso di affidabilità" tuo personale a quello che leggi.
Poi ad avere dati che negli anni si accumulano può accadere che un modellista bussi alla tua porta con qualche brillante idea per un "lavoretto insieme". Il lavoretto insieme si può affrontare in diversi modi, da "ti do i dati e dammi il coauthoring" fino a "ma fammi un attimo vedere come stai facendo girare il modello": in mezzo il mondo delle sfumature ( a secondo anche delle necessità o dei progetti in corso). Chiudo questa premessa, a beneficio dei non addetti ai lavori, per tornare alla breve aneddotica di questi mesi in cui, "tutti a casa", c'era da giocare con i dati, spesso provenienti da più fonti: inevitabile che qualche gioioso modellista bussasse alla mia porta per quel famoso "lavoretto"
E magari quel qualcuno c'ha fatto su un PhD... o, non pago, un postdoc...segue tesisti...diciamo non è di primo pelo...sembra quasi serio....fino a quando non ti esce con " senti poi qua ho fatto la regressione, ma per sbaglio l'ho fatta anche lineare e ti dirò, viene meglio: tu che dici la tengo lineare?"
(col tono di "Tu che ne pensi: metto il completo rosso o lo spezzato?"). Al che bisogna armarsi di pazienza (colleghi...seri....) e porre delle domande inframezzate da risposte cammuffate da domande, del genere:
- ma tu normalmente che correlazoni hai tra le grandezze? perché nelle altre pubblicazioni NON correlavano linearmente...
- ma hai notato che questi dati in specifico rispetto agli altri portano dietro elevata incertezza e cambia ordine di grandezza? Come ne hai tenuto conto?
- ma con che criterio valuti se siano comparabili o utilizzabli insieme i vari dati?
- ...no perché, poi l'esperto sei te, generalmente quando ha dati molto dispersi, una nuvola, è facile che quello che ci passi meglio dentro sia una retta...o anche una polinomiale...anche una curva a mano libera. La domanda è se ha senso che ci passi, dal momento che il comportamento di queste grandezze "sarebbe" noto...sempre in teoria.

(Quasi) fine dell'aneddotica spicciola. Per la cronaca, sopra non si parla di dati da Covid, personalmente non mi sono andata a guardare nenache un modello Covid... anche sui dati, mi sono informata poco...ma la mia esperienza con dati e modelli è in media come descritto sopra.
Sul discorso alla moda del momento (la curva del COVID) così a sentimento, ci vedo una grande disomogeneità, non solo da nazione a nazione, da regione a regione, ma anche tra i dati che si sono prodotti ad inizio anno rispetto a quelli che si producono ora...e stante che i modelli hanno un loro uso e senso, ma non hanno mai fatto miracoli, se vengono nutriti con dati disomogenei o con alto bias può accadere che ci passi in mezzo bene una retta...
Per cui, quando guardate i modelli ed i dati in giro (voi, io continuo a non farlo), ecco magari ponetevi qualche domanda, non solo certezze.

Epilogo
"Ah, allora sì, mi sa che so la risposta da solo. Forse è meglio che lascio perdere la regressione lineare e riguardo meglio i dati."
Mi sa.

(immagine da xkcd, ovviamente - NdCS)

Nessun commento:

Posta un commento

Nota. Solo i membri di questo blog possono postare un commento.