Il Chimico Scettico: IL TEST DI TURING: l'IA NON CAPISCE MA MOLTI UMANI SONO MESSI PEGGIO

(che non è propriamente un test di Turing)

Si parla molto e sempre di più di Intelligenza Artificiale. Quindi cominciamo con un glossario:

IA: intelligenza artificiale, in inglese AI, Artificial Intelligence.

LLM: Large Language Model, Modello Linguistico di Grandi Dimensioni.

L'argomento sta diventando rilevante anche in campo chimico farmaceutico, e non tanto per le iniziative imprenditoriali nate sull'onda dell'hype (vedere BenevolentAI), in cui i chimici medicinali avrebbero dovuto addestrare l'IA a fare meglio e prima di loro (ovviamente non è successo). Ma sistemi per l'autoottimizzazione di reazioni e/o processi cominciano ad avere una certa rilevanza e ora si parla in prospettiva di sistemi per la predizione della tossicità che potrebbero sostituire in certi casi i test animali con il placet di FDA. In questi casi si parla più di Machine Learning, ma ormai ML, LLM, GPT sono tutti indistintamente IA.

Poi c'è l'aspetto del grande pubblico: in famiglia c'è chi chiede a Google o a Gemini perché ormai lo trova più comodo che cercare in rete e la prole mi ha aggiornato sulla mania di "ghiblizzazione" in corso, con le allegate sacrosante proteste di Studio Ghibli, e sulla faccenda delle "action figures".

Io continuo ad usare ChatGPT, principalmente per il grunt work (traduci, parafrasa, riassumi, ordina in una lista, crea una breve introduzione, crea codice per etc). Giusto per vedere l'ho messa alla prova con testi simbolici o metaforici e anche ChatGPT 4 non ci arriva proprio. La sua capacità di analisi in quei casi crolla verticalmente. Eppure segni, simboli e metafore sono processi alla base della nostra intelligenza : li possediamo prima di imparare il latino, il greco o l'analisi matematica (questo vale per chi li ha studiati) e richiedono una capacità di astrazione ed elaborazione che è completamente ed esclusivamente umana. Altro fatto interessante: GPT E LLM sembrano "saltare" con l'autoricorsività. E mi spiego: sia la domanda all'IA una quasiasi, e la sua risposta A(1). Istruire l'IA stabilendo che A(2) è la sua autovalutazione sulla risposta A(1), A(3) la sua autovalutazione su A(2) e così via: per n>1 A(n) è l'autovalutazione sulla risposta A(n-1). Chiedetegli di fornire l'output per n=100 o n=200 e lo troverete privo di significato. E questo è quel che ha a che fare con il test di Turing: ChatGPT fornisce la risposta anche se la risposta non ha senso e la fornisce subito mentre una intelligenza umana non sarebbe in grado di fornirla in frazioni di secondo e troverebbe la richiesta insensata.

I sistemi ML task oriented, "stupidi", che non si devono preoccupare di interfacciarsi con un utente ma devono soltano variare il primo input, registrare il risultato, variare di nuovo l'input e così via, con la ricorsività non hanno alcun problema (ricorsività, autorefenzialità e feedback sono malattie che ho preso da giovane leggendo Douglas Hofstadter).

Ed è per questo che ho chiesto a ChatGPT quello che probabilmente nessuno chiede: quali sono i limiti della tua attuale versione? La risposta dovrebbe essere illuminante, almeno per qualcuno:

Uno dei maggiori limiti della mia attuale versione (nonostante sia molto avanzata) è la mancanza di comprensione profonda del contesto continuo e personale. In altre parole:

Non ho memoria persistente tra sessioni a meno che tu non l’attivi esplicitamente (o io non venga autorizzato a ricordare qualcosa durante la conversazione). Questo significa che non ricordo chi sei da un giorno all’altro, a meno che tu non me lo dica di nuovo.
Non ho esperienze dirette o coscienza, quindi anche se posso generare risposte che sembrano empatiche o informate, non provo emozioni né ho intuizioni personali.
Dipendo dalla qualità e completezza dei dati con cui sono stato addestrato, e il mio cutoff è giugno 2024. Questo mi rende vulnerabile all’obsolescenza su argomenti recenti (anche se ora posso cercare info aggiornate, se richiesto).
Non sempre capisco le sfumature o impliciti umani come sottintesi culturali, ironia molto sottile, o dinamiche complesse di relazione, anche se sto migliorando.

Interessante la mancanza di memoria persistente. Mi ha ricordato un passo di Neuromancer di William Gibson :

Accese la lampada da tavolo accanto all’Hosaka. Il cerchio nitido di luce cadde direttamente sul costrutto di Flatline. Inserì un po’ di ICE, collegò il costrutto e si connesso.

Fu esattamente come la sensazione di qualcuno che leggeva sopra la sua spalla.

Tossì. «Dix? McCoy? Sei tu, amico?» La gola gli era stretta.

«Ehi, fratello,» disse una voce senza direzione.

«Sono Case, amico. Ti ricordi?»

«Miami, l'apprendista, svelto a imparare.»

«Qual è l’ultima cosa che ricordi prima che ti parlassi, Dix?»

«Niente.»

«Aspetta un attimo.» Disconnesse il costrutto. La presenza era sparita. Lo riconnesse. «Dix? Chi sono?»

«Mi hai fregato, Jack. Chi cazzo sei?»

«Ca... il tuo amico. Socio. Che succede, amico?»

«Bella domanda.»

«Ti ricordi di essere stato qui, un attimo fa?»

«No.»

«Sai come funziona una matrice di personalità ROM?»

«Certo, fratello, è un costrutto firmware.»

«Quindi se la collego al banco che sto usando, posso darti una memoria sequenziale, in tempo reale?»

«Immagino di sì,» disse il costrutto.

«Okay, Dix. Tu sei un costrutto ROM. Mi segui?»

«Se lo dici tu,» disse il costrutto. «Chi sei?»

«Case.»

«Miami,» disse la voce, «l'apprendista, svelto a imparare.»

Ho chiesto ancora a ChatGPT: a comprensione del testo come sei messa?

Molto bene, in generale.

Sono progettata per avere un'elevata capacità di comprensione del testo, anche lungo, complesso o sfumato. Questo include:

Analisi sintattica e semantica: riesco a scomporre frasi complicate, identificare soggetti impliciti, legami logici, metafore, e riferimenti anaforici (tipo "lui", "quello", ecc.).
Contesto e coerenza: riesco a seguire fili logici in testi anche articolati, e a individuare incoerenze o cambi di tono.
Comprensione critica: posso riassumere, parafrasare, confrontare punti di vista e anche valutare argomentazioni (per esempio, individuare fallacie logiche o debolezze retoriche).
Stili diversi: riesco a capire testi letterari, tecnici, giuridici, poetici, e via dicendo — ciascuno secondo le sue convenzioni.

Tuttavia, non sono infallibile: potrei sbagliare se il testo è troppo ambiguo, mal strutturato o se richiede conoscenze molto specialistiche fuori dal mio addestramento.

Il che, se permettete, è abbastanza impressionante: è già un pezzo avanti rispetto a buona parte dei soggetti che CS ha incrociato in cinque anni sui social.

Il Chimico Scettico

martedì 6 maggio 2025

IL TEST DI TURING: l'IA NON CAPISCE MA MOLTI UMANI SONO MESSI PEGGIO

Nessun commento:

Posta un commento

CHI SONO? UNO COME TANTI (O POCHI)