Da un esperimento mentale a un nuovo mondo

Ti sei mai chiesto da dove proviene l'IA che utilizziamo ogni giorno, come gli assistenti vocali nei telefoni, gli algoritmi di raccomandazione e persino il recente successo di ChatGPT? Molti pensano che l'IA sia stata "inventata" da un genio in laboratorio. Ma la verità è molto più affascinante. L'IA non è un'invenzione isolata, ma piuttosto una "staffetta di pensiero" che si estende per quasi un secolo. Il suo punto di partenza non è nemmeno una riga di codice, ma una profonda domanda filosofica: "Le macchine possono pensare?" Questa domanda è come un sasso lanciato in un lago tranquillo, che ha sollevato onde di pensiero tra le menti più brillanti di diverse generazioni. Da quel momento, filosofi, matematici, ingegneri, psicologi... innumerevoli pionieri si sono dedicati a questo campo: alcuni hanno definito il suo nome, altri hanno aperto la sua strada, alcuni hanno perseverato durante gli inverni, e altri hanno acceso la sua energia oggi. In questo articolo, cambieremo prospettiva e collegheremo i punti di svolta chiave dell'IA da 0 a 1 attraverso 10 figure rappresentative. Vedrai:

Come un grande sogno è stato "nominato" e "definito".
Come le due strade tecniche del "simbolismo" e del "connessionismo" si sono scontrate e fuse.
Come i tre "padri del deep learning" hanno perseverato durante l'inverno, portando infine alla rinascita dell'intero campo.

Lasciare che "intelligenza" passi dalla filosofia alla scienza

Qualsiasi grande rivoluzione tecnologica ha spesso origine non in un'invenzione specifica, ma in una domanda sorprendente. Questo è particolarmente vero per l'intelligenza artificiale (IA). La sua storia non inizia con una macchina ruggente o una riga di codice magico, ma con un esperimento mentale proposto su carta da un geniale matematico. Questa persona e la sua domanda hanno portato per la prima volta il concetto di "intelligenza", che era rimasto per millenni nel regno della filosofia, nell'arena della scienza moderna. Lui è Alan Turing.

Nel 1950, all'alba della scienza informatica, le macchine erano pesanti e lente, in grado di eseguire solo le operazioni più basilari. Tuttavia, i pensieri di Turing avevano già superato i limiti del suo tempo. Nella sua epocale pubblicazione "Macchine computazionali e intelligenza", ha lanciato una domanda apparentemente semplice ma incredibilmente profonda: "Le macchine possono pensare?" Turing ha capito che discutere direttamente la definizione di "pensiero" avrebbe portato a un'infinita palude filosofica. Così, ha abilmente trasformato la questione in un gioco verificabile: il "gioco dell'imitazione" (The Imitation Game), noto in seguito come "prova di Turing".

Le regole del gioco sono: un interrogatore comunica tramite testo con due oggetti anonimi, uno dei quali è un essere umano e l'altro una macchina. Se, per un periodo di tempo sufficientemente lungo, l'interrogatore non riesce a distinguere quale sia la macchina, possiamo dire che la macchina ha superato il test, mostrando un comportamento intelligente indistinguibile da quello umano. Questo è il motivo per cui l'inizio dell'IA è così unico: non è un'invenzione destinata a risolvere compiti specifici, ma una sfida volta a rispondere a domande fondamentali.

La grandezza della prova di Turing risiede nel fatto che fornisce uno standard operativo e valutabile per il concetto vago di "intelligenza". Non si preoccupa più di sapere se all'interno della macchina ci sia un'anima o una coscienza, ma si concentra sul suo comportamento esteriore. È come dire che non dobbiamo aprire una scatola nera per esplorare la sua struttura interna; basta osservare il suo output per giudicare le sue capacità. Questo pensiero pragmatico ha trasformato una pura speculazione filosofica in un obiettivo ingegneristico che può essere affrontato da ingegneri e scienziati.

Turing ha piantato un seme di pensiero, ma per farlo germogliare, era necessaria una terra fertile e un giardiniere appassionato. Questa persona è presto emersa: John McCarthy. Siamo nel 1955, Turing è già scomparso, ma la sua domanda ispira un gruppo di giovani studiosi dall'altra parte dell'Atlantico. All'epoca, la ricerca sulle "macchine pensanti" era dispersa in vari campi, con nomi diversi come "cibernetica", "teoria degli automi" e così via.

Il giovane assistente professore di matematica al Dartmouth College, McCarthy, sentiva che queste scintille sparse dovevano essere raccolte in una fiamma ardente. Pianificò di organizzare un seminario di diverse settimane nell'estate del 1956, invitando le menti più brillanti d'America a esplorare insieme la possibilità di simulare l'intelligenza umana con le macchine. Nella proposta di conferenza redatta insieme a Marvin Minsky e altri, esprimevano un'ottimistica genialità, affermando che "ogni aspetto dell'intelligenza può in linea di principio essere descritto con precisione, permettendo così alle macchine di simularlo".

Per dare a questo nuovo campo un'identità chiara, McCarthy aveva bisogno di un nome accattivante. Evitò deliberatamente il termine influente "cibernetica", poiché non voleva che questo nuovo campo fosse visto come parte del dominio accademico del fondatore Norbert Wiener. McCarthy ha successivamente ricordato che ha creato questo nuovo termine per stabilire un confine e affermare un'identità accademica indipendente. Il nome che ha scelto con cura è stato "intelligenza artificiale" (Artificial Intelligence).

La conferenza di Dartmouth del 1956 è quindi diventata la "genesi" della storia dell'IA. Non solo ha ufficialmente nominato questa disciplina, ma, cosa più importante, ha riunito un gruppo di pensatori con un sogno comune, stabilendo il programma di ricerca iniziale. Durante la conferenza, Allen Newell e Herbert Simon hanno presentato il primo programma "pensante" della storia: il "teorico della logica" (Logic Theorist), in grado di dimostrare teoremi matematici usando la logica simbolica, il che ha notevolmente incoraggiato i partecipanti.

La nascita del nome "intelligenza artificiale" ha segnato la scoperta ufficiale di un nuovo continente. Ha dato a tutti gli esploratori appassionati di "intelligenza delle macchine" un'identità comune e una bandiera unificata. Da quel momento, non erano più matematici, psicologi o ingegneri che combattevano da soli, ma "scienziati dell'intelligenza artificiale". McCarthy non solo ha nominato questa disciplina, ma nel 1958 ha creato il linguaggio Lisp, uno strumento potente per l'elaborazione simbolica che è diventato la "lingua ufficiale" dei primi ricercatori di IA, consentendo loro di trasformare logiche e pensieri astratti in programmi eseguibili su macchine.

Dalla proposta di un "problema" filosofico da parte di Turing, alla denominazione di un "nome" disciplinare da parte di McCarthy, l'intelligenza artificiale ha compiuto un salto cruciale da 0 a 1. Turing ha definito l'obiettivo finale, mentre McCarthy ha suonato la carica, avviando uno dei più grandiosi e affascinanti viaggi scientifici della storia umana. Questo viaggio è iniziato con la domanda filosofica "chi siamo?" e si è infine diretto verso la pratica scientifica di "creare nuova intelligenza" attraverso codici e algoritmi.

Il primo scontro tra due strade: l'ottimismo dei geni e l'acqua fredda della realtà

Perché i primi scienziati dell'IA erano così ottimisti?

Nell'epoca dell'intelligenza artificiale, l'intero campo era pervaso da un'ottimistica quasi frenetica. Il cuore di questa fiducia derivava da una convinzione semplice ma potente: il simbolismo. Sotto la guida di Marvin Minsky del MIT, la prima generazione di scienziati dell'IA era convinta che l'intelligenza umana, e ogni attività intellettuale, potesse essere scomposta in una serie di simboli logici e regole formali. Per loro, il cervello non era altro che una "macchina di carne"; se solo avessimo trovato le regole giuste, avremmo potuto riprodurre il processo di pensiero su un computer.

Questa convinzione non era infondata, ma si basava su una serie di successi entusiasmanti. Nel 1956, un programma chiamato "teorico della logica" (Logic Theorist) fece la sua comparsa, considerato il primo vero programma di intelligenza artificiale. Questo programma non solo dimostrò 38 teoremi dall'importante opera matematica "Principia Mathematica", ma trovò anche metodi di dimostrazione più eleganti rispetto al testo originale. Uno dei suoi creatori, Herbert A. Simon, dichiarò entusiasta: "Abbiamo inventato un programma per computer in grado di pensare in modo non numerico, risolvendo così il vecchio problema mente-corpo". Questo successo dimostrò al mondo che le macchine potevano effettivamente completare compiti intellettuali creativi, un tempo considerati esclusivi degli esseri umani. Un altro esempio famoso è il sistema SHRDLU, in grado di comprendere e eseguire comandi complessi come "metti quella piramide rossa sopra il blocco blu" in un mondo virtuale di blocchi.

Questi successi nel "mondo dei giocattoli", sebbene limitati, erano come un faro che illuminava la strada verso l'intelligenza generale. Questi risultati tangibili incoraggiarono enormemente Simon, Minsky e altri. Fecero previsioni audaci, come quella di Simon, che prevedeva che entro dieci anni le macchine avrebbero battuto i campioni mondiali di scacchi e scoperto nuovi teoremi matematici importanti. In quell'"età dell'oro", si credeva comunemente che seguendo la strada del simbolismo, sarebbe stato solo una questione di tempo prima che l'intelligenza artificiale raggiungesse il livello umano.

Come è arrivato il primo inverno dell'IA?

Tuttavia, l'ottimismo dei geni si scontrò rapidamente con un muro freddo chiamato "realtà". Quando i ricercatori di IA cercarono di applicare quei programmi che funzionavano bene nel "mondo dei giocattoli" a un mondo reale e complesso, i problemi fondamentali del simbolismo emersero in tutta la loro evidenza. In primo luogo, il simbolismo faticava a gestire il "buonsenso" e l'"incertezza" onnipresenti nel mondo reale. Le decisioni quotidiane degli esseri umani sono piene di ambiguità, intuizioni e conoscenze di base implicite, tutte difficili da codificare in regole logiche precise.

Ad esempio, sappiamo tutti che "l'acqua è umida" e "gli uccelli possono volare", ma inserire manualmente queste innumerevoli conoscenze nel computer è quasi un compito impossibile. In secondo luogo, i sistemi di IA affrontano un ostacolo mortale quando si tratta di scalare: l'"esplosione combinatoria" (combinatorial explosion). Ciò significa che quando il numero di variabili in un problema aumenta anche solo leggermente, le possibilità che il sistema deve calcolare aumentano esponenzialmente, superando rapidamente la capacità di qualsiasi computer.

Proprio come il sistema SHRDLU, una volta che il suo "mondo dei blocchi" diventa leggermente più complesso, le sue prestazioni calano drasticamente, diventando impraticabili. Queste limitazioni fondamentali hanno fatto sì che lo sviluppo dell'IA rimanesse molto indietro rispetto alle promesse iniziali. I sentimenti di delusione iniziarono a diffondersi, culminando nel 1973 con un documento noto come "Rapporto Lighthill" (Lighthill Report). Questo rapporto, commissionato dal governo britannico, criticava aspramente: "Fino ad oggi, non ci sono stati risultati significativi in nessun campo".

Il rapporto puntava il dito contro il fallimento della ricerca sull'IA nel risolvere problemi reali, in particolare l'incapacità di affrontare il problema dell'"esplosione combinatoria", concludendo che molte ricerche di base sull'IA non meritavano ulteriori finanziamenti. La pubblicazione di questo rapporto portò direttamente a una significativa riduzione dei fondi per la ricerca sull'IA da parte del governo britannico, costringendo molti laboratori universitari a chiudere. Questa ondata di freddo colpì anche gli Stati Uniti, dove le agenzie di finanziamento divennero più caute, preferendo progetti a breve termine con prospettive di applicazione chiare.

Così, a causa del grande divario tra promesse e realtà, l'intelligenza artificiale affrontò il suo primo "inverno". Anche Minsky in seguito ammise che il loro "errore più grande... fu non rendersi conto di quanto fosse difficile il problema che stavamo cercando di risolvere".

Perché si dice che insegnare all'IA ad "accettare l'incertezza" sia un grande progresso?

Mentre la strada del simbolismo si bloccava, un'altra via di pensiero completamente diversa portò una nuova luce all'IA. Il pioniere di questa nuova strada è stato Judea Pearl, vincitore del premio Turing. Ha guidato una "rivoluzione probabilistica", il cui concetto centrale è: invece di costringere l'IA a comprendere il mondo con logiche binarie, è meglio insegnarle come accettare e gestire l'"incertezza". L'arma rivoluzionaria di Pearl è stata la "rete bayesiana" (Bayesian networks) proposta alla fine degli anni '80.

Questo è un modello grafico ingegnoso che può rappresentare le relazioni di dipendenza probabilistica tra diverse variabili attraverso una struttura grafica intuitiva. Ancora più importante, fornisce un insieme rigoroso di metodi matematici che consentono all'IA di aggiornare dinamicamente la propria "credenza" sulla probabilità che si verifichino eventi in base a nuove evidenze. Questo ha mostrato un enorme potere in campi come la diagnosi medica. I sistemi esperti tradizionali cercavano di diagnosticare utilizzando rigide regole "se... allora...", come "se il paziente ha la febbre, allora potrebbe avere l'influenza".

Ma la realtà è molto più complessa: la febbre può anche essere un sintomo di altre malattie, e la forza dell'associazione tra sintomi e malattie varia. Questi sistemi basati su regole assolute diventano spesso molto fragili di fronte a informazioni incomplete o contraddittorie. Al contrario, il metodo basato su reti bayesiane è completamente diverso. Può costruire una rete di relazioni probabilistiche che include molte malattie e sintomi. Quando il medico inserisce l'evidenza "il paziente ha la febbre", il sistema non giunge a una conclusione assoluta, ma aggiorna automaticamente le probabilità di tutte le malattie correlate (come influenza, polmonite, ecc.) in base al teorema di Bayes.

Se poi viene inserita una nuova evidenza "il paziente ha la tosse", il sistema ricalcolerà nuovamente, aggiustando ulteriormente la distribuzione delle probabilità, fornendo così un suggerimento diagnostico più vicino alla realtà e basato sulla probabilità. Questo passaggio dall'inseguire la "certezza" all'abbracciare l'"incertezza" rappresenta un grande progresso di pensiero. Ha dato all'IA per la prima volta la capacità di ragionare e prendere decisioni in un mondo reale pieno di informazioni incomplete e ambiguità. Il lavoro di Pearl non solo ha fornito potenti nuovi strumenti per l'IA per uscire dalle difficoltà della realtà, ma è stato ampiamente applicato in vari campi come la medicina, il riconoscimento vocale e la diagnosi dei guasti, e, cosa più importante, ha aperto una nuova strada per lo sviluppo dell'intelligenza artificiale verso forme più potenti.

Resistere durante l'inverno: la rinascita delle reti neurali e i "tre giganti"

Quando l'ottimismo del simbolismo svanì e la ricerca sull'intelligenza artificiale entrò in un lungo e freddo "inverno", la maggior parte dei ricercatori e dei fondi si spostò verso campi più pratici come i sistemi esperti. Tuttavia, ai margini del mondo accademico, un piccolo gruppo di persone continuava a credere che la strada del connessionismo e delle reti neurali, criticata da Marvin Minsky e quasi abbandonata, fosse la direzione giusta verso una vera intelligenza. Erano i custodi durante l'inverno, una minoranza tra le minoranze.

È stata questa quasi ostinata fede a riaccendere il fuoco della seconda rivoluzione dell'intelligenza artificiale. I leader di questo gruppo erano Geoffrey Hinton, Yann LeCun e Yoshua Bengio, noti come i "tre giganti del deep learning".

Cos'è esattamente il "deep learning"?

Per comprendere il contributo di questi tre scienziati, dobbiamo prima rispondere a una domanda fondamentale: cos'è esattamente il "deep learning"? Qual è la differenza essenziale rispetto alle prime reti neurali? Le prime reti neurali, come il perceptron, avevano una struttura molto semplice, di solito con una o due strati. Era come un bambino che inizia a disegnare, capace di riconoscere solo linee e forme di base. Se vuoi che riconosca un gatto, devi prima dirgli manualmente quali sono le caratteristiche del gatto: "ha orecchie appuntite", "ha baffi", "ha una faccia rotonda".

Questo processo è chiamato "ingegneria delle caratteristiche", è dispendioso in termini di tempo e fatica, e spesso non produce risultati soddisfacenti, poiché il mondo reale è molto più complesso. Il deep learning, come suggerisce il nome, si basa sulla "profondità": utilizza reti neurali con molti strati (da pochi a centinaia). Questa struttura multilivello conferisce a essa una potenza straordinaria: l'apprendimento automatico delle caratteristiche. Possiamo usare una metafora più vivida per capire: non stiamo più insegnando a un bambino a disegnare, ma gli stiamo dando un intero sistema visivo.

Quando vede un'immagine di un gatto, il primo strato di questa rete "profonda" potrebbe automaticamente imparare a riconoscere i bordi e gli angoli di base; il secondo strato, basandosi sui risultati del primo, impara a combinare forme più complesse come occhi e orecchie; e così via, strati più profondi imparano a riconoscere il concetto di "faccia di gatto" e infine l'intero "gatto". L'intero processo è end-to-end, dai pixel grezzi alla conclusione finale di "gatto", la macchina impara autonomamente senza che gli esseri umani debbano definire cosa sia "un orecchio appuntito" o "baffi".

Questo modo di apprendere, che va dal concreto all'astratto, strato dopo strato, è la differenza essenziale tra il deep learning e le prime reti neurali, ed è la fonte della sua potenza.

I "tre giganti": la minoranza che accende la fiamma durante l'inverno

È stata la comune fede in questa potenza "profonda" a unire Hinton, LeCun e Bengio. Durante i decenni in cui le reti neurali erano trascurate, hanno affrontato le critiche del mondo accademico, come tre solitari portatori di torce, combattendo in direzioni diverse ma in sintonia, risolvendo infine il problema centrale che ha permesso al deep learning di passare dalla teoria alla realtà.

Geoffrey Hinton: il fondatore che ha reso le reti profonde "addestrabili". Hinton è conosciuto come il "padre del deep learning", il suo contributo più grande è stato risolvere il problema fondamentale di "come addestrare efficacemente una rete profonda".

Nel 1986, insieme ai suoi collaboratori, ha promosso l'algoritmo di retropropagazione (Backpropagation). Questo algoritmo è come un insegnante rigoroso, quando la rete fa un errore, può "retropropagare" il segnale di errore dall'ultimo strato a ritroso, dicendo a ogni neurone di ogni strato come regolare i propri parametri per fare meglio la prossima volta. Questa scoperta ha reso possibile l'addestramento di reti neurali multilivello, ponendo le basi per l'intero campo del deep learning.

Yann LeCun: il pioniere che ha fatto "vedere" il mondo alle macchine. LeCun ha concentrato la sua attenzione su come far "vedere" il mondo alle macchine. Ha capito che il trattamento delle immagini non può essere trattato come i dati normali. Ispirato dalla corteccia visiva biologica, alla fine degli anni '80 ha sviluppato le reti neurali convoluzionali (Convolutional Neural Networks, CNN).

Le CNN imitano il modo in cui gli occhi catturano informazioni locali attraverso "nuclei di convoluzione" e riducono notevolmente il numero di parametri del modello attraverso la "condivisione dei pesi", rendendole sia efficienti che precise nel trattamento delle immagini. La rete LeNet-5, progettata da lui nel 1998, è stata applicata con successo nel sistema di riconoscimento dei numeri scritti a mano sui controlli bancari, diventando un esempio di applicazione commerciale delle CNN e aprendo la strada a tutte le future scoperte nella visione artificiale.

Yoshua Bengio: il teorico che ha fatto "comprendere" il linguaggio all'IA. Mentre LeCun insegnava all'IA come "vedere", Bengio si concentrava su come far "leggere" e "comprendere" all'IA.

Si è dedicato a risolvere il problema della "catastrofe dimensionale" nel trattamento del linguaggio naturale (NLP). Il modello di linguaggio neurale probabilistico che ha proposto ha introdotto in modo innovativo il concetto di vettori di parole (Word Embeddings). Questa tecnologia mappa ogni parola in uno spazio vettoriale continuo ad alta dimensione, in modo che le parole semanticamente simili siano vicine nello spazio. Ad esempio, i vettori di "re" e "regina" saranno molto vicini. Questo ha permesso per la prima volta alle macchine di catturare le relazioni semantiche tra le parole, ponendo una solida base per lo sviluppo di tutti i modelli sequenziali successivi, come la traduzione automatica e l'analisi del sentiment.

Questi tre scienziati, uno ha risolto "come imparare" (retropropagazione), uno ha risolto "come vedere" (CNN), e uno ha risolto "come comprendere" (vettori di parole), i loro lavori si completano a vicenda, costruendo insieme la mappa tecnologica centrale del moderno deep learning.

2012 ImageNet: l'"esplosione cosmica" che ha innescato la rivoluzione

Sebbene i "tre giganti" avessero già preparato la polvere da sparo teorica, per innescare questa rivoluzione era necessario un momento decisivo. Questo momento è arrivato nel 2012. La competizione di riconoscimento visivo su larga scala ImageNet (ILSVRC) era l'"Olimpiade" del campo della visione artificiale, richiedendo agli algoritmi partecipanti di riconoscere e classificare oltre un milione di immagini, coprendo 1000 categorie. Prima del 2012, i campioni della competizione erano sempre stati team che utilizzavano metodi di apprendimento automatico tradizionali, e i miglioramenti dei risultati erano sempre stati lenti.

Tuttavia, quell'anno, tutto è cambiato. Hinton e i suoi due studenti, Alex Krizhevsky e Ilya Sutskever, hanno partecipato con un profondo modello di rete neurale chiamato AlexNet. AlexNet è una rete profonda 8 strati che non solo utilizza l'architettura CNN di LeCun, ma ha anche utilizzato in modo innovativo funzioni di attivazione ReLU e tecniche come il Dropout per migliorare le prestazioni e prevenire l'overfitting, addestrandosi in parallelo grazie alla potenza di calcolo di due GPU.

Il risultato è stato dirompente. AlexNet ha vinto il campionato con un tasso di errore Top-5 del 15,3%, mentre il secondo classificato ha ottenuto un tasso del 26,1%. Questo enorme divario di oltre 10 punti percentuali ha scosso profondamente l'intero campo dell'IA. Non si trattava più di un piccolo progresso, ma di una vera e propria frattura dimensionale. Questa vittoria ha dimostrato in modo inconfutabile che, con dati e potenza di calcolo sufficienti, le prestazioni del deep learning superano di gran lunga tutti i metodi tradizionali. La competizione ImageNet del 2012 è quindi riconosciuta come un evento spartiacque nella storia dell'IA, il "punto di innesco" della rivoluzione del deep learning.

Come ha detto Hinton, da quel momento in poi, "quasi tutta la ricerca sulla visione artificiale si è spostata verso le reti neurali". Questa vittoria è stata come un colpo di pistola di partenza, annunciando la fine definitiva dell'inverno dell'IA e l'inizio di una nuova era dominata dal deep learning. Coloro che avevano resistito nell'oscurità per decenni hanno finalmente visto la luce.

Dallo laboratorio al mondo intero

La creazione, diffusione e riflessione sull'IA Se i tre giganti del deep learning hanno trovato un potente motore per l'intelligenza artificiale, la storia dopo il 2010 riguarda come collegare il volante a questo motore, costruire strade e infine riflettere su dove porterà l'umanità.

Questo processo è stato guidato da alcune figure chiave, che hanno risposto a tre domande fondamentali: come impara l'IA a "creare"? Come esce l'IA dalla torre d'avorio? E quando l'IA ha un grande potere, come possiamo controllarla? La trasformazione dell'IA generativa: l'ispirazione di Ian Goodfellow da un dibattito in un bar Nel 2014, Ian Goodfellow, che stava ancora facendo il dottorato a Montreal, si trovava in un bar con amici.

Un dibattito accademico su come far generare foto realistiche ai computer ha acceso la sua ispirazione. Quella sera concepì un'idea geniale: le reti generative avversarie (Generative Adversarial Networks, GAN). L'essenza di questa idea risiede nell'"opposizione". Un sistema GAN è composto da due reti neurali in competizione: un "generatore" (Generator) e un "discriminatore" (Discriminator).

Il compito del generatore è quello di imparare continuamente le caratteristiche dei dati reali e poi creare "falsi" (come una foto di un volto) che siano abbastanza realistici da ingannare il discriminatore. Il discriminatore, d'altra parte, ha come unico obiettivo quello di distinguere con precisione quali dati sono reali e quali sono falsificati dal generatore. Il processo di addestramento è come un gioco a somma zero senza fine: il generatore cerca di ingannare il discriminatore, mentre il discriminatore cerca di smascherare la frode.

In questo processo di crescente opposizione, entrambi evolvono insieme. Alla fine, quando il discriminatore non riesce più a distinguere efficacemente il vero dal falso, significa che il generatore ha acquisito la capacità di creare dati altamente realistici. Questa idea è così innovativa e potente che Yann LeCun, uno dei tre giganti del deep learning, l'ha elogiata come "l'idea più interessante nel campo dell'apprendimento automatico negli ultimi 20 anni". La nascita del GAN segna una trasformazione nella storia dello sviluppo dell'IA.

Prima di questo, l'IA era più simile a un "riconoscitore", abile nella classificazione, riconoscimento e previsione. Con il GAN, l'IA ha acquisito l'identità di "creatore", per la prima volta avendo la capacità di generare contenuti nuovi e complessi dal nulla, aprendo direttamente la porta all'era dell'AIGC (intelligenza artificiale generativa) che conosciamo oggi.

La chiave per la diffusione della tecnologia: Andrew Ng e la predicazione della "nuova elettricità"

Una tecnologia rivoluzionaria, se rimane solo in laboratorio, avrà un valore limitato. Trasformare l'IA da uno strumento per pochi eletti a una competenza che milioni di persone in tutto il mondo possono apprendere e applicare è stato il ruolo cruciale di Andrew Ng. Come professore alla Stanford University e co-fondatore di Coursera, il corso online "Machine Learning" lanciato nel 2011 da Ng è diventato il punto di partenza per l'ondata di MOOC (corsi online aperti di massa), attirando milioni di iscritti in tutto il mondo.

Successivamente, i corsi "Deep Learning Specialization" lanciati in collaborazione con DeepLearning.AI e "AI for Everyone" per non tecnici hanno ulteriormente abbassato la soglia di accesso alla conoscenza dell'IA. Fino al 2023, oltre 8 milioni di persone hanno partecipato ai suoi corsi. Ng non solo ha diffuso la conoscenza, ma ha anche proposto un concetto di grande impatto: "L'IA è la nuova elettricità".

Crede che, proprio come la rivoluzione elettrica di un secolo fa ha trasformato radicalmente l'agricoltura, i trasporti, la manifattura e quasi tutti i settori, l'IA stia ora rimodellando vari settori come una tecnologia fondamentale con una potenza senza precedenti. Questa metafora indica con precisione il futuro dell'IA: non è un prodotto isolato, ma un'infrastruttura che penetrerà in ogni aspetto della società. È stata questa visione dell'ingegnerizzazione e dell'applicazione industriale dell'IA a spingere enormemente il processo di transizione dell'IA dalla ricerca accademica alla pratica industriale.

Il campanello d'allarme dell'etica dell'IA

Timnit Gebru e la riflessione inevitabile Quando il potere dell'IA cresce in modo esponenziale e inizia a influenzare profondamente le decisioni sociali, una domanda seria si pone a tutti: come possiamo garantire che questa tecnologia sia equa, giusta e responsabile? La scienziata etica dell'IA Timnit Gebru è diventata la rappresentante più significativa di questo campo. Nel 2018, Gebru e i suoi collaboratori hanno pubblicato uno studio fondamentale intitolato "Gender Shades".

Hanno scoperto che i sistemi di riconoscimento facciale commerciali dominanti presentavano gravi pregiudizi: quando identificavano uomini con pelle chiara, l'accuratezza era quasi perfetta; ma quando identificavano donne con pelle scura, il tasso di errore saliva a quasi il 35%. Questo studio ha suonato come un campanello d'allarme, rivelando come i pregiudizi nei dati di addestramento possano essere amplificati dai sistemi di IA, causando ingiustizie sistemiche nei confronti dei gruppi emarginati. Questo studio ha portato direttamente IBM e Microsoft a migliorare i loro algoritmi per ridurre i pregiudizi.

Anni dopo, Gebru, che era co-responsabile del team etico dell'IA di Google, è tornata al centro dell'attenzione a causa di un articolo intitolato "I pericoli dei pappagalli casuali: i modelli di linguaggio possono diventare troppo grandi?". Questo articolo ha messo in evidenza i pregiudizi, i costi ambientali e i rischi associati ai modelli di linguaggio di grandi dimensioni, sottolineando che essi imitano solo i modelli linguistici umani senza comprenderne realmente il significato, proprio come "pappagalli casuali". Questo articolo ha innescato un conflitto tra lei e i vertici di Google, portando infine al suo allontanamento.

L'esperienza di Gebru segna l'ingresso dell'IA in una nuova fase. Quando l'IA non è più solo un giocattolo in laboratorio, ma uno strumento potente in grado di influenzare assunzioni, approvazioni di prestiti e persino sentenze giudiziarie, diventa cruciale esaminare i suoi pregiudizi, rischi e impatti sociali. Il suo lavoro ricorda all'intero settore che i progressi tecnologici, se privi di umanità e responsabilità sociale, possono portare non a benefici, ma a nuove catene. Dalla creazione di Goodfellow, alla diffusione di Ng, fino alla riflessione di Gebru, le storie di queste tre figure delineano insieme il quadro completo dell'IA nell'era moderna: una tecnologia con un'incredibile creatività, che si integra nel mondo a una velocità senza precedenti, costringendoci anche a riflettere seriamente su come coesistere con essa.

Iniziare con una domanda

"Le macchine possono pensare?" Ogni grande cambiamento spesso non inizia con un'invenzione straordinaria, ma da una domanda sorprendente. La genesi dell'intelligenza artificiale (IA) è proprio così. Il suo punto di partenza non è una macchina specifica, né una riga di codice magico, ma una domanda filosofica lanciata nel mondo dal matematico britannico Alan Turing a metà del XX secolo: "Le macchine possono pensare?" In un'epoca in cui i computer erano enormi come stanze, questa domanda suonava come fantascienza. Ma l'eccezionalità di Turing sta nel fatto che non ha lasciato questa domanda nel regno della speculazione filosofica. Ha progettato un esperimento mentale ingegnoso: il "gioco dell'imitazione", noto in seguito come "prova di Turing". Questo test ha abilmente eluso la definizione del concetto vago di "pensiero", proponendo invece: se una macchina può dialogare con un essere umano e il suo comportamento è indistinguibile da quello umano, possiamo considerare che questa macchina possieda intelligenza?

La formulazione di questa domanda è stata come un fulmine che squarcia la notte. Ha portato per la prima volta il sogno antico di "creare intelligenza" dal regno della mitologia e della filosofia a un campo ingegneristico che può essere verificato e sfidato. Turing non ci ha dato una risposta, ma ha fornito a tutti i suoi successori un obiettivo chiaro e un piano da iniziare a disegnare. Ha detto al mondo: l'intelligenza potrebbe essere descritta e simulata con precisione. Questo seme di pensiero è stato piantato in un terreno estremamente fertile.

Il mondo dopo la Seconda Guerra Mondiale, in particolare negli anni '50, era pervaso da un ottimismo scientifico senza precedenti e dallo spirito del "posso farlo". L'umanità aveva appena domato l'energia atomica, inventato il computer elettronico e decifrato il codice della vita. La vittoria della scienza ha fatto credere alla gente che, grazie all'intelligenza umana e ai potenti strumenti appena inventati, non ci fosse alcuna grande sfida impossibile da affrontare. Se le macchine possono calcolare traiettorie complesse e decifrare i codici nemici, perché non andare oltre e imitare o addirittura possedere la capacità di apprendimento, ragionamento e creazione degli esseri umani?

È stato in questo contesto storico che un gruppo di menti tra le più brillanti e visionarie dell'epoca è stato attratto dallo stesso sogno. Tuttavia, le loro scintille di pensiero erano disperse in vari campi come matematica, psicologia, teoria dell'informazione e scienza informatica emergente. Avevano bisogno di un'opportunità, di un momento in cui questi ruscelli sparsi potessero confluire in un grande fiume. Questo momento è arrivato nell'estate del 1956. Un giovane matematico di nome John McCarthy, insieme a Marvin Minsky, Nathaniel Rochester e Claude Shannon, il padre della teoria dell'informazione, ha presentato una proposta audace alla Fondazione Rockefeller.

Pianificavano di tenere un seminario estivo di diverse settimane al Dartmouth College nel New Hampshire. L'inizio della proposta era pieno dell'ottimismo e dell'ambizione di quell'epoca: "Proponiamo di condurre una ricerca sull'intelligenza artificiale nell'estate del 1956... La ricerca si baserà su un'ipotesi, secondo cui ogni aspetto dell'apprendimento o qualsiasi altra caratteristica dell'intelligenza può in linea di principio essere descritta con precisione, permettendo così alle macchine di simularla." Per dare a questo nuovo campo un'identità chiara, McCarthy ha faticato a creare un nuovo termine: "intelligenza artificiale" (Artificial Intelligence).

Questa scelta non è stata casuale. All'epoca, un campo chiamato "cibernetica" era già influente, studiando principalmente i sistemi di feedback e controllo nelle macchine e negli organismi. Ma McCarthy voleva aprire una nuova direzione, più focalizzata sulla realizzazione di funzioni cognitive avanzate come logica e ragionamento attraverso i computer, piuttosto che essere vincolato dal quadro della cibernetica. La nascita di questo nome è stata come una forte "dichiarazione di indipendenza", fornendo a tutti gli esploratori con sogni simili una bandiera comune.

L'estate del 1956 ha visto svolgersi questo incontro, noto in seguito come "conferenza di Dartmouth". Non era una conferenza accademica rigorosa, ma piuttosto una lunga tempesta di idee che durava da sei a otto settimane. Allen Newell, Herbert Simon, Ray Solomonoff e altri giganti del campo dell'IA erano presenti. Provenivano da background diversi, portando prospettive diverse da logica, psicologia, matematica e ingegneria.

Uno dei momenti culminanti della conferenza è stato il programma "teorico della logica" (Logic Theorist) presentato da Newell e Simon. Questo programma ha dimostrato con successo diversi teoremi dall'importante opera matematica "Principia Mathematica". Non si trattava solo di una dimostrazione tecnica, ma di un annuncio al mondo che le macchine possono effettivamente eseguire compiti di ragionamento simbolico, un tempo considerati esclusivi degli esseri umani. Ha dato per la prima volta una risposta positiva e visibile alla domanda "Le macchine possono pensare?".

Questa è la "genesi" dell'IA. Non è nata da un successo isolato in un laboratorio, ma è avvenuta in una grande fusione di pensieri. La conferenza di Dartmouth è stata così importante per tre motivi:

Ha dato un nome a questo campo. Da quel momento in poi, "intelligenza artificiale" ha avuto un'identità ufficiale, attirando finanziamenti, talenti e attenzione.
Ha stabilito l'agenda centrale. La conferenza ha discusso direzioni come l'elaborazione simbolica, le reti neurali e il trattamento del linguaggio naturale, che sarebbero diventate le principali vie di ricerca dell'IA nei decenni successivi.
Ha creato la comunità iniziale. Questo incontro ha connesso un gruppo di pensatori solitari in una comunità accademica, che, tornando alle proprie istituzioni, hanno fondato i primi laboratori di IA (come MIT, Carnegie Mellon e Stanford), piantando i semi per gli alberi che cresceranno in seguito. La conferenza di Dartmouth è stata celebrata come la "costituzione dell'IA". Ha trasformato la grande domanda proposta da Turing in un viaggio scientifico epico che ha attratto generazioni di talenti di alto livello.

Sebbene i partecipanti fossero eccessivamente ottimisti nelle loro previsioni sul futuro, non prevedendo le difficoltà e gli "inverni" che avrebbero affrontato, la fiamma che hanno acceso non si è mai spenta. Da una domanda è iniziata la nascita di una disciplina. La storia dell'IA ha così preso il via.

Le fantasie dei geni e il muro della realtà

Dopo che la conferenza di Dartmouth ha ufficialmente nominato l'intelligenza artificiale, è iniziata un'epoca d'oro (circa 1956-1974) piena di ottimismo illimitato e previsioni audaci.

Questi primi pionieri dell'IA, rappresentati da Herbert Simon e Marvin Minsky, erano convinti di aver trovato la chiave per l'intelligenza delle macchine. La loro fiducia non era infondata, ma alimentata da una serie di incredibili successi ottenuti nel "mondo in miniatura". Il risultato più rappresentativo di questi primi successi è stato il programma "teorico della logica" (Logic Theorist). Sviluppato nel 1956 da Allen Newell, Herbert Simon e J.C. Shaw, questo programma è ampiamente considerato il primo programma di intelligenza artificiale al mondo.

Il suo compito era dimostrare i teoremi proposti dai matematici Whitehead e Russell nel loro monumentale lavoro "Principia Mathematica". I risultati sono stati sorprendenti: il "teorico della logica" non solo ha dimostrato 38 dei 52 teoremi, ma ha anche trovato metodi di dimostrazione più semplici e più eleganti per alcuni di essi. Questo successo ha incoraggiato enormemente i ricercatori, poiché dimostrava chiaramente che le macchine non solo possono calcolare, ma possono anche eseguire attività di ragionamento logico complesse, un tempo considerate esclusive degli esseri umani.

Subito dopo, nel 1959, il team ha lanciato il "risolutore di problemi generali" (General Problem Solver, GPS). La rivoluzione del GPS risiedeva nel tentativo di simulare il modo di pensare generale degli esseri umani nella risoluzione dei problemi. Separava la conoscenza specifica del dominio (come le regole) dalle strategie generali di risoluzione, adottando una strategia chiamata "analisi mezzo-fine", stabilendo continuamente sotto-obiettivi per avvicinarsi alla risposta finale. Il GPS ha risolto una serie di classici enigmi logici, come il gioco delle torri di Hanoi e le dimostrazioni geometriche, facendo intravedere la possibilità di creare una "macchina pensante" in grado di risolvere problemi generali in vari domini.

Se il GPS mostrava la capacità di "pensare" delle macchine, il sistema SHRDLU del MIT ha dato per la prima volta alle macchine la capacità di "comprendere" interagendo con il mondo fisico. In questo mondo virtuale di "blocchi" creato da Terry Winograd nel 1970, gli utenti potevano dare comandi al sistema in inglese quotidiano, come "prendi quel grande blocco rosso". SHRDLU era in grado di interpretare i comandi, comprendere il contesto (ad esempio, quando chiedi "qual è la piramide?", richiederà chiarimenti), pianificare ed eseguire una serie di azioni (come afferrare, spostare, impilare) e persino rispondere a domande sullo stato di quel mondo. Il successo di SHRDLU ha perfettamente integrato la comprensione del linguaggio, il ragionamento e l'esecuzione delle azioni, facendo sembrare che stessimo assistendo alla nascita di robot intelligenti in grado di dialogare liberamente e collaborare con gli esseri umani, come nei film di fantascienza. Questi trionfi nei "mondi dei giocattoli" hanno generato un enorme ottimismo.

Simon ha audacemente previsto nel 1965: "Entro vent'anni, le macchine saranno in grado di svolgere tutto il lavoro che gli esseri umani possono fare". Minsky ha concordato: "Nel giro di una generazione... il problema di creare 'intelligenza artificiale' sarà sostanzialmente risolto". Tuttavia, quando queste fantasie dei geni hanno cercato di passare dai laboratori idealizzati al complesso mondo reale, si sono rapidamente scontrate con un muro duro e freddo. Questo muro era composto da due problemi fondamentali. Il primo è l'"esplosione combinatoria" (Combinatorial Explosion).

Nel semplice mondo dei blocchi, le possibilità sono limitate. Ma quando il problema si espande anche solo leggermente, ad esempio passando dal gioco degli scacchi a quello del Go, o dalla pianificazione di alcuni spostamenti di blocchi alla pianificazione del traffico urbano, le possibilità che il sistema deve calcolare aumentano esponenzialmente, esaurendo rapidamente la potenza di calcolo dei computer più potenti dell'epoca e persino di oggi. L'eleganza dell'IA nei "problemi dei giocattoli" è diventata vulnerabile di fronte alla complessità della realtà. Il secondo problema è ancora più fondamentale: la "mancanza di buonsenso e contesto".

Il mondo umano è pieno di una grande quantità di conoscenze implicite e contesti sfumati. Ad esempio, sappiamo che "l'acqua è umida", "una corda può essere tirata ma non spinta", "se una persona si bagna, potrebbe prendere un raffreddore". Queste conoscenze sono così fondamentali che non ci rendiamo nemmeno conto della loro esistenza. Ma per un sistema di IA che comprende solo logica e regole, questo mondo è completamente estraneo. Non può comprendere queste conoscenze implicite, rendendo la sua capacità di ragionamento estremamente fragile e ridicola in scenari reali.

SHRDLU può comprendere "prendi un blocco", ma non può capire cosa significhi "prendere un impegno". Questa difficoltà di "radicamento simbolico", in cui i simboli non possono essere associati al significato del mondo reale, è diventata un abisso che l'IA simbolica non può superare. Le aspettative eccessive e la dura realtà hanno creato un enorme divario, e i sentimenti di delusione hanno iniziato a diffondersi, culminando in due eventi emblematici che hanno innescato il primo "inverno" dell'intelligenza artificiale. Il primo evento è stato il "Rapporto Lighthill" (Lighthill Report) pubblicato nel 1973 dal governo britannico.

Questo rapporto, redatto dal matematico applicato Sir James Lighthill, ha criticato senza pietà la ricerca sull'IA dell'epoca. Il rapporto ha sottolineato che "fino ad oggi, non ci sono stati risultati significativi in nessun campo". Ha puntato il dito contro le due principali debolezze della ricerca sull'IA: l'incapacità di affrontare il "buonsenso" e il fallimento nel risolvere problemi reali a causa dell'"esplosione combinatoria". Questo rapporto influente ha portato direttamente a una significativa riduzione dei finanziamenti per la ricerca universitaria sull'IA, portando la ricerca sull'IA in Gran Bretagna a un quasi completo arresto.

Il secondo colpo pesante è arrivato dagli Stati Uniti, da parte di uno dei leader del campo dell'IA, Marvin Minsky. Nel 1969, Minsky e Seymour Papert hanno co-autore il libro "Perceptrons". In questo libro, attraverso rigorose dimostrazioni matematiche, hanno evidenziato i limiti fondamentali di un'altra strada tecnologica parallela al simbolismo: il connessionismo (cioè le reti neurali). Hanno dimostrato che le reti neurali a strato singolo (cioè il "perceptron") sono modelli lineari incapaci di risolvere problemi fondamentali, come il semplice problema dell'"XOR".

Questa conclusione era corretta, ma è stata interpretata come una "sentenza di morte" per l'intero percorso delle reti neurali. L'enorme influenza di questo libro ha portato a un'interruzione quasi totale dei finanziamenti per la ricerca sul connessionismo, costringendo questa strada, che avrebbe potuto integrare il simbolismo, a entrare in un lungo silenzio di oltre dieci anni. Così, l'entusiasmo si è rapidamente raffreddato. Le aspettative eccessive, le difficoltà teoriche e il successivo ritiro dei fondi hanno spinto l'intelligenza artificiale nel suo primo lungo inverno.

Le fantasie dei geni si sono scontrate con il muro della realtà, e l'intero campo è passato da un picco di clamore a un silenzio profondo, in attesa di una prossima rinascita in incognito.

In cerca di una via d'uscita nell'incertezza

Alla fine degli anni '80, l'"età dell'oro" dell'intelligenza artificiale ha affrontato un vento gelido. Il mercato degli esperti, un tempo promettente, è crollato, l'industria delle macchine LISP ha subito un declino e l'entusiasmo per gli investimenti da parte di governi e aziende è diminuito drasticamente. La ricerca sull'IA è tornata a un punto basso, segnando il secondo "inverno dell'IA" nella storia.

Tuttavia, a differenza della prima era di silenzio, questa volta lo sviluppo dell'IA non si è completamente fermato, ma è stato come un fiume ghiacciato, silenzioso in superficie, ma con due correnti sotterranee che si muovevano silenziosamente. Una corrente era la "scienza evidente" che cercava di dimostrare il proprio valore in ambiti specifici. L'altra era una "corrente sotterranea" che accumulava silenziosamente potere, in attesa della primavera. La prima strada era l'esplorazione della sopravvivenza dell'IA simbolica in difficoltà. Sebbene i sistemi esperti siano infine crollati a causa dei costi elevati per costruire le loro basi di conoscenza e della difficoltà di gestire l'incertezza, hanno lasciato un'eredità preziosa: hanno dimostrato che l'IA ha la capacità di risolvere problemi pratici in scenari specifici, accendendo la prima luce per l'applicazione commerciale dell'IA.

Ancora più importante, nel riflettere sul perché i sistemi esperti siano falliti, un pensatore ha indicato una nuova direzione per lo sviluppo dell'IA. Lui è Judea Pearl. Pearl ha capito che il mondo reale è pieno di incertezze e che le rigide regole logiche non sono sufficienti a descrivere la complessità del mondo. Ha introdotto la probabilità e l'inferenza causale nell'IA, insegnando alle macchine come pensare in termini di "possibilità" e come prendere decisioni ragionevoli con informazioni incomplete.

Questo non è solo un'importante integrazione al simbolismo, ma ha anche segnato un passo cruciale per l'IA, passando da un mondo logico idealizzato a un mondo reale pieno di incertezze e cambiamenti. Nel frattempo, un'altra strada più nascosta e rivoluzionaria stava "navigando" ai margini del mondo accademico. Questa era la ricerca del connessionismo rappresentata dalle reti neurali. Gli esploratori di questa strada erano i veri "profondisti". Nella loro cassetta degli attrezzi, è stata aggiunta un'arma teorica potente. Nel 1986, Geoffrey Hinton e i suoi colleghi hanno riproposto l'algoritmo di retropropagazione e hanno dimostrato sistematicamente la sua efficacia.

Questo algoritmo ha risolto in modo ingegnoso il problema dell'addestramento delle reti neurali multilivello, consentendo alle macchine di "riflettere" sugli errori e regolare i parametri interni strato per strato, apprendendo modelli più complessi. Hinton ha ricordato in seguito che erano ottimisti nel pensare che questo algoritmo "risolverà tutto". Tuttavia, la luce teorica non ha immediatamente dissipato il freddo della realtà. Negli anni '90, la ricerca sulle reti neurali ha rapidamente incontrato tre muri alti: insufficienza di potenza di calcolo, scarsità di dati e dubbi accademici da parte dei colleghi. Le prestazioni dei computer dell'epoca erano deboli e non erano in grado di supportare l'addestramento di reti su larga scala.

Nel frattempo, metodi di apprendimento statistico come le macchine a vettori di supporto (SVM) si sono dimostrati più performanti e più efficienti rispetto alle reti neurali dell'epoca in molti compiti, portando a un flusso di finanziamenti e talenti verso altri campi. Le reti neurali sono state nuovamente considerate come tecniche irrealistiche, e la ricerca è caduta in difficoltà finanziarie e in una situazione di trascuratezza. In un ambiente così difficile, alcuni ricercatori hanno scelto di resistere. Yann LeCun è stato uno dei rappresentanti più eccezionali.

Nel 1988, si è unito ai Bell Labs di AT&T, dedicando tutte le sue energie allo sviluppo di una rete neurale speciale: la rete neurale convoluzionale (CNN). Era convinto che questa struttura di rete, che imitava la corteccia visiva biologica, fosse la chiave per far "vedere" il mondo alle macchine. L'obiettivo di LeCun era molto chiaro: far riconoscere alle macchine gli assegni bancari scritti a mano. Dopo anni di iterazioni, nel 1998 ha lanciato il classico modello LeNet-5.

Questa rete è stata implementata con successo nei sistemi commerciali e, all'inizio del XXI secolo, gestiva circa 20 milioni di assegni al giorno, rappresentando circa il 10% del totale degli assegni in circolazione negli Stati Uniti. Questo è stato un successo fondamentale. Non solo è stata una rara vittoria commerciale per la tecnologia delle reti neurali durante l'inverno, ma è stata anche come un seme piantato nel terreno ghiacciato, dimostrando con i fatti l'energia enorme contenuta in questa "corrente sotterranea". Ha dimostrato al mondo che le reti neurali non sono fantasie, ma possono risolvere problemi reali e hanno un potenziale illimitato.

Così, durante gli anni '90 e all'inizio del XXI secolo, le due strade dell'IA si sono sviluppate in parallelo. Una strada ha utilizzato probabilità e causalità come strumenti, permettendo all'IA di "sopravvivere" nel mondo commerciale e imparare a convivere in modo più maturo con l'incertezza; l'altra strada ha "navigato" nell'angolo accademico, affinando silenziosamente le armi più affilate per la futura rivoluzione sotto la custodia di pochi. Queste due forze, una in luce e una nell'ombra, hanno preparato il terreno per l'imminente esplosione.

Nel frattempo, un "vento favorevole" proveniente dal campo dell'hardware stava silenziosamente prendendo piede: l'hardware di calcolo parallelo rappresentato dalle GPU, la cui potente capacità di calcolo delle matrici si adattava perfettamente alle esigenze computazionali delle reti neurali. Quando questo vento favorevole dell'hardware ha finalmente soffiato su questo terreno fertile di potenza di calcolo, dati e algoritmi, una rivoluzione tecnologica che avrebbe cambiato il mondo stava per iniziare.

Dalla "comprensione del mondo" alla "creazione del mondo"

Il 30 settembre 2012, una competizione di riconoscimento visivo su larga scala chiamata ImageNet (ILSVRC) ha vissuto un momento storico.

Un team composto dal professor Geoffrey Hinton e dai suoi due studenti, Alex Krizhevsky e Ilya Sutskever, ha presentato un modello di rete neurale profonda chiamato AlexNet. La sua performance ha scioccato l'intero campo della visione artificiale: il suo tasso di errore nel riconoscimento delle immagini era solo del 15,3%, ben 10,8 punti percentuali inferiore al secondo classificato.

Non si trattava solo di una vittoria in una competizione, ma di un colpo di pistola di partenza. AlexNet ha dimostrato in modo inconfutabile che, grazie a reti profonde, enormi quantità di dati e alla potenza di calcolo delle GPU, le macchine possono davvero "comprendere" questo mondo. Da quel momento in poi, la rivoluzione del deep learning è stata completamente innescata, e lo sviluppo dell'IA è entrato in una nuova era. Se AlexNet ha dato all'IA un "occhio" senza precedenti, solo due anni dopo, un giovane ricercatore ha conferito all'IA un'immaginazione illimitata.

Nel 2014, Ian Goodfellow, allora dottorando, ha avuto un'illuminazione mentre discuteva questioni accademiche in un bar, proponendo un'idea geniale: le reti generative avversarie (Generative Adversarial Networks, GAN). Il principio delle GAN è simile a una competizione eterna tra "lancia" e "scudo". All'interno, ci sono due reti neurali in competizione: un "generatore" e un "discriminatore".

Il compito del generatore è quello di creare dati (come immagini) così realistici da ingannare il discriminatore; mentre il compito del discriminatore è quello di distinguere con precisione quali dati sono reali e quali sono falsificati dal generatore. In questa continua opposizione e evoluzione, il generatore migliora le sue abilità di "falsificazione" per vincere la competizione, fino a creare contenuti completamente nuovi che anche gli esseri umani faticano a distinguere. Dalle immagini di volti ad opere d'arte, fino alle immagini mediche, le GAN hanno trasformato l'IA da un "riconoscitore" e "analizzatore" a un "creatore".

L'IA non è più solo in grado di comprendere il mondo, ma ha iniziato a generare un nuovo, digitale "mondo". Mentre l'IA avanzava nel campo della creazione visiva, un'altra trasformazione strutturale più profonda stava silenziosamente prendendo forma. Nel 2017, un team di ricerca di Google ha pubblicato un articolo rivoluzionario intitolato "Attention Is All You Need" (L'attenzione è tutto ciò di cui hai bisogno). Questo articolo ha abbandonato la struttura delle reti neurali ricorrenti (RNN), comunemente utilizzata per elaborare dati sequenziali (come il linguaggio), proponendo una nuova architettura: il Transformer.

Il cuore del Transformer è un design chiamato "meccanismo di auto-attenzione" (Self-Attention), che non solo cattura meglio le dipendenze a lungo raggio nel testo, ma, cosa fondamentale, consente un calcolo parallelo efficiente, aumentando notevolmente la velocità di addestramento e il potenziale di scalabilità del modello. La nascita dell'architettura Transformer ha costruito una solida base per l'IA, aprendo la strada a una serie di esplosioni di modelli di linguaggio di grandi dimensioni (LLM).

A partire dal primo modello GPT rilasciato da OpenAI nel 2018, questa strada tecnologica ha rapidamente subito iterazioni. La quantità di parametri del modello e la scala dei dati sono aumentate esponenzialmente, e le capacità dell'IA hanno subito una trasformazione qualitativa, passando da una semplice generazione di testo a conversazioni fluide, scrittura di codice e persino sorprendenti capacità di "apprendimento con pochi esempi" nel GPT-3. La creatività dell'IA si è estesa dalle immagini al linguaggio, che è il dominio più centrale dell'intelligenza umana.

La diffusione del potere e la riflessione

Dall'ingegnerizzazione ai vincoli etici Le innovazioni tecnologiche, per cambiare il mondo, devono superare l'"ultimo miglio" dalla ricerca al settore.

In questo processo, figure come Andrew Ng hanno svolto un ruolo chiave come "predicatori". Si sono dedicati a promuovere l'ingegnerizzazione dell'IA e l'educazione di massa, trasformando le complesse tecnologie di deep learning in strumenti e corsi applicabili su larga scala, consentendo a migliaia di ingegneri e studenti di padroneggiare e applicare l'IA, accelerando notevolmente la diffusione del potere dell'IA in tutti i settori della società. Tuttavia, quando una forza diventa abbastanza potente, porta con sé non solo opportunità, ma anche rischi.

Nel 2019, OpenAI ha adottato un approccio senza precedenti nel rilasciare il suo nuovo modello GPT-2. Preoccupati che la sua potente capacità di generazione di testo potesse essere utilizzata per creare notizie false, spam o bullismo online, inizialmente hanno scelto di rilasciare solo una versione ridotta, trattenendo il modello completo. Questa mossa ha innescato un acceso dibattito nel settore tecnologico riguardo alla "ricerca aperta" e alla "divulgazione responsabile". Alla fine, dopo aver osservato che "non c'erano prove forti di abusi", OpenAI ha pubblicato il modello completo da 1,5 miliardi di parametri nel novembre dello stesso anno. La controversia sul rilascio di GPT-2 è solo la punta dell'iceberg. Con la diffusione delle capacità dell'IA generativa, la tecnologia Deepfake è diventata un problema sociale serio. Utilizzando l'IA per il "face swapping" o la sintesi vocale, è possibile creare facilmente video o audio falsi di figure politiche, utilizzati per diffondere disinformazione, minare la fiducia pubblica e persino interferire nei processi elettorali. Inoltre, i ricercatori hanno rapidamente scoperto che questi modelli, addestrati su enormi dati di internet, riflettono fedelmente i pregiudizi esistenti nella società umana.

Ad esempio, le analisi hanno mostrato che GPT-2 tende a collegare le donne a professioni più stereotipate quando descrive le professioni. Di fronte a queste sfide, una nuova voce critica ha iniziato a farsi sentire nel campo dell'IA. Rappresentati da Timnit Gebru, i ricercatori etici dell'IA hanno iniziato a lanciare un appello: mentre perseguiamo modelli più potenti, dobbiamo esaminare seriamente l'impatto sociale della tecnologia, i pregiudizi algoritmici e i rischi potenziali. Le direzioni di ricerca che hanno promosso, dalla rilevazione e mitigazione dei pregiudizi nei modelli alla creazione di quadri di governance responsabili per l'IA, segnano l'ingresso dello sviluppo dell'IA in una fase che richiede un'attenta considerazione e vincoli sociali.

Dall'AlexNet del 2012 che ha fatto "comprendere" il mondo all'IA, alle GAN e ai Transformer che hanno fatto "creare" il mondo, fino a oggi, quando dobbiamo riflettere su come "vincolare" questa IA sempre più potente. Questo salto in poco più di un decennio non è solo un salto nelle capacità tecniche, ma una profonda rimodulazione della relazione tra l'IA e la società umana. L'IA non è più solo uno strumento nel laboratorio di un ingegnere, ma è diventata una potente forza che plasma la nostra realtà e influisce sul nostro futuro.

Scrivendo alla fine: quali domande porrà il prossimo "Turing"?

Ripensando al viaggio dell'intelligenza artificiale di oltre settanta anni, ciò che vediamo non è un'invenzione scaturita da un lampo di genio, ma una staffetta di pensiero che attraversa generazioni. Questa lunga corsa è iniziata con il primo colpo di pistola di Alan Turing, che non ha creato l'IA, ma ha definito il traguardo dell'intero percorso con una semplice e profonda domanda: "Le macchine possono pensare?" Il testimone è passato per primo a John McCarthy, che nel 1956 ha ufficialmente "nominato" questo nuovo campo come intelligenza artificiale, conferendo ai pionieri un'identità e una bandiera comune.

Successivamente, i simbolisti rappresentati da Marvin Minsky hanno affrontato il primo tratto con grande fiducia, credendo che l'intelligenza potesse essere costruita con logica e regole, ottenendo brillanti successi iniziali. Tuttavia, la complessità del mondo reale ha rapidamente fatto scontrare le loro fantasie con la realtà, portando l'IA al suo primo inverno. Durante il lungo silenzio, i "tre giganti" Geoffrey Hinton, Yann LeCun e Yoshua Bengio hanno custodito silenziosamente la fiamma del connessionismo, convinti che le reti neurali ispirate al cervello fossero la strada giusta.

La loro perseveranza ha finalmente portato il vento favorevole della potenza di calcolo e dei dati. Quando le reti generative avversarie (GAN) di Ian Goodfellow sono emerse, l'IA non era più solo un riconoscitore, ma era diventata un creatore, aprendo l'era generativa. Mentre la tecnologia avanzava, gli avvertimenti di Timnit Gebru rappresentavano l'ingresso in una nuova fase della corsa: dobbiamo iniziare a esaminare l'etica e la responsabilità sociale di questa potente forza. Dalla trama storica, possiamo vedere più chiaramente i contorni del futuro.

Ad esempio, la competizione tra simbolismo e connessionismo non è finita con la vittoria del deep learning. Oggi, si stanno fondendo sotto forma di "IA neurale simbolica", consentendo ai grandi modelli di possedere non solo potenti capacità percettive, ma anche una maggiore capacità di ragionamento logico e spiegabilità. Allo stesso modo, l'emergere dell'etica dell'IA non è casuale; è una richiesta inevitabile dello sviluppo sociale quando la potenza tecnologica raggiunge un punto critico. Quando l'IA inizia a influenzare l'occupazione, plasmare l'opinione pubblica e persino partecipare alla narrazione storica, discutere la sua equità, trasparenza e responsabilità sociale diventa un compito che dobbiamo affrontare.

Quindi, cosa significa per noi comuni comprendere questa storia composta da innumerevoli collisioni di pensiero, conflitti di percorso e perseveranza individuale? La risposta è: ci aiuta a costruire un quadro cognitivo, rimuovendo il mistero e l'ansia nei confronti dell'IA. Quando comprendiamo che l'IA non è una "tecnologia nera" apparsa dal nulla, ma deriva da una domanda di Turing, da un ostacolo di Minsky e dalla perseveranza di Hinton, possiamo guardare con maggiore calma alle sue capacità e limitazioni, riflettendo in modo più razionale sul suo posto nel nostro lavoro e nella nostra vita, piuttosto che essere trascinati passivamente dalla corrente.

Il testimone della storia è ora nelle mani della nostra generazione. La domanda di Turing ha definito se l'IA può o meno esistere, mentre oggi ci troviamo di fronte a domande su se "dovrebbe" e "come coesistere". Quindi, quali nuove domande porrà il prossimo "Turing"? Saranno sulla natura della coscienza, sui diritti delle macchine o sul nuovo ruolo dell'umanità dopo l'esplosione dell'intelligenza? Questa domanda non ha una risposta standard. È sospesa nel futuro, in attesa che ognuno di noi, testimone, partecipante e influenzato da questa trasformazione, inizi a riflettere e rispondere insieme.