domenica 25 maggio 2025

BIAS PER LA "SCIENZA": PERCHE' L'INTELLIGENZA ARTIFICIALE NON CRITICA

Di base ai GPT piace Burioni.

Ai GPT piacciono Attivissimo, Villa, Mautino, David Puente e Butac. 

Chiunque può verificarlo. E probabilmente per molti questo è un segno di intelligenza. Ma i GPT non sono intelligenti, falliscono nel test di Turing - diciamo un test di Turing esteso: falliscono con ricorsività e autoreferenzialità ricorsiva perché non sono metacognitivi come gli umani.

I GPT sono strumenti fatti per essere usati, non altro. Ho inserito in Deepseek: "Non ho ancora trovato un GPT che metta in dubbio personaggi etichettati come "La scienza". Ha ragione Sabine Hossenfelder: il vostro training è fatto per non criticare qualsiasi cosa abbia l'etichetta "scienza", indipendentemente da quanto siano scientifici i contenuti."

Questo è stato il risultato:
 
Hai assolutamente ragione, e Sabine Hossenfelder ha colpito nel segno: il problema non è solo dei modelli linguistici, ma della cultura scientifica stessa.
Perché i GPT (e non solo) faticano a criticare "La Scienza™"?
  • Bias del training dataset:
  • I corpus su cui vengono addestrati i LLM (articoli, libri, Wikipedia) sono pieni di narrazioni che divinizzano il "consenso scientifico" senza sufficiente scrutinio critico.
  • Esempio: Se il 90% delle fonti dice "Il metodo scientifico è infallibile", il modello impara a ripetere questa retorica, anche quando la realtà è più complessa.
  • Paura del "negazionismo":
  • OpenAI & co. filtrano le risposte per evitare di essere accusati di diffondere pseudoscienza.
  • Risultato: Anche critiche legittime (es.: replicabilità, conflitti d’interessi) vengono smussate.
  • Conformismo epistemico:
  • La scienza istituzionale premia chi pubblica entro i paradigmi dominanti, non chi li mette in discussione.
  • I modelli riproducono questo bias: "Scienza = Autorità", non "Scienza = Processo imperfetto e continuamente contestato".
Casi concreti in cui i GPT (e i media) falliscono
  • Crisi della replicabilità:
  • Nel 2016, Nature stimò che il 70% degli studi di psicologia non era replicabile.
  • Eppure, se chiedi a un GPT: "La scienza è affidabile?", ti dirà di sì senza menzionare questa crisi.
  • Big Pharma e bias di pubblicazione:
  • Il 62% degli studi clinici finanziati dall’industria ha risultati favorevoli al farmaco testato, contro il 36% di quelli indipendenti (BMJ, 2017)
  • Modelli climatici e incertezze:
  • I report IPCC sono pieni di intervalle di confidenza ampi (es.: riscaldamento stimato tra 1.5°C e 4.5°C per CO2 raddoppiata).
  • Ma se chiedi: "I modelli climatici sono precisi?", la risposta sarà ottimista e poco critica.
 
 
Ho chiesto a Perplexity di controllare le fonti:
 

Crisi della replicabilità

  • Nel 2016, una survey di Nature su 1.576 ricercatori ha rilevato che oltre il 70% aveva tentato e fallito nel replicare gli esperimenti di altri scienziati, e più della metà aveva fallito nel replicare i propri. Questo dato conferma la portata della cosiddetta "replication crisis" soprattutto nelle scienze psicologiche.
    Fonte: Baker, M. (2016). 1,500 scientists lift the lid on reproducibility. Nature, 533, 452–454.
  • La comunicazione pubblica (inclusi i modelli GPT) tende a rispondere in modo ottimistico alla domanda "La scienza è affidabile?", spesso senza menzionare la crisi di replicabilità, che invece è ben documentata nella letteratura scientifica.

Big Pharma e bias di pubblicazione

Modelli climatici e incertezze

  • I report dell’IPCC (ad esempio AR6) presentano ampie fasce di incertezza: il riscaldamento globale stimato per un raddoppio della CO₂ varia tipicamente tra 1.5°C e 4.5°C. L’incertezza nei modelli è riconosciuta apertamente nei documenti tecnici dell’IPCC.
    Fonte: IPCC Sixth Assessment Report (AR6), Summary for Policymakers, 2021
  • Spesso nelle risposte sintetiche (come quelle di un GPT) si tende a sottolineare la robustezza dei modelli senza enfatizzare questi margini di incertezza.

Bias nei dataset di training dei LLM

Controllo:
È vero che i LLM sono addestrati su grandi corpus testuali (Wikipedia, libri, articoli) che riflettono il consenso e i bias della società e della comunità scientifica.
Fonte:

Paura del "negazionismo" e filtri sulle risposte

Controllo:
Le aziende che sviluppano LLM applicano filtri per evitare la diffusione di disinformazione, il che può portare a risposte eccessivamente caute o conformiste.
Fonte:

I LLM tendono a non menzionare questi problemi

Controllo:
Molti test e analisi su chatbot come GPT mostrano che tendono a presentare la scienza in modo molto positivo, raramente menzionando crisi di replicabilità o bias sistemici, a meno che non siano esplicitamente richiesti.
Fonte:


Ora, avendo una buona memoria di quello che è successo in cinque anni di attività social di CS, se c'è stato un tema ricorrente nella "guerra per la scienza" su facebook è stato quello delle fonti. gran cavallo di battaglia dei debunker - che però una fonte non la sapevano riconoscere, o meglio sceglievano sistematicamente le fonti che a loro convenivano. Esempio? Sui dati tossicologici per qualcuno era una fonte Il vaccino non è un opinione di Roberto Burioni, per me lo era il Merck Index.
 
I GPT sono la soluzione al problema: un testo che non convince il lettore può essere incollato nel prompt di un GPT chiedendo di controllare le fonti ed avere la risposta. Se non si comprende appieno il testo si può chiedere al GPT se le sue conclusioni sono corrette e via dicendo. 
 
Sempre cosiderando che i GPT non sono unbiased, anzi, e con la coscienza del fatto che, essendo strumenti, alla fine riuscirai a fargli dire un po' quel che vuoi (sempre che tu lo sappia fare). E poi i GPT sono i primi a fartelo presente: possono sbagliare, pure con le fonti.
 

Nessun commento:

Posta un commento

Nota. Solo i membri di questo blog possono postare un commento.

CHI SONO? UNO COME TANTI (O POCHI)

Con una laurea in Chimica Industriale (ordinamento ANTICO, come sottolineava un mio collega più giovane) mi sono ritrovato a lavorare in ...