D'une expérience de pensée à un nouveau monde

Avez-vous déjà pensé d'où viennent les IA que nous utilisons chaque jour, comme les assistants vocaux sur nos téléphones, les algorithmes de recommandation, ou même le ChatGPT qui a récemment explosé en popularité ? Beaucoup de gens pensent que l'IA est comme une invention brillante d'un génie dans un laboratoire. Mais la vérité est bien plus fascinante. L'IA n'est pas une invention isolée, elle ressemble plutôt à une 'course de relais intellectuelle' qui s'étend sur près d'un siècle. Son point de départ n'est même pas une ligne de code, mais une question philosophique profonde : 'Les machines peuvent-elles penser ?' Cette question, comme une pierre jetée dans un lac tranquille, a suscité des ondulations parmi les esprits les plus brillants de chaque génération. Depuis lors, des philosophes, des mathématiciens, des ingénieurs, des psychologues... d'innombrables pionniers se sont engagés, certains ont défini son nom, d'autres ont ouvert son chemin, certains ont tenu bon pendant les hivers, et d'autres ont aujourd'hui libéré son énergie. Dans cet article, nous allons changer de perspective et relier les points de basculement clés de l'IA de 0 à 1 à travers 10 figures emblématiques. Vous verrez :

Comment un grand rêve a été 'nommé' et 'défini'.
Comment les deux voies techniques 'symbolique' et 'connexionniste' se sont affrontées et fusionnées.
Comment les trois 'pères de l'apprentissage profond' ont tenu bon pendant l'hiver, pour finalement accueillir la renaissance de tout le domaine.

Laissez 'l'intelligence' passer de la philosophie à la science

Toute grande révolution technologique trouve souvent son origine non pas dans une invention concrète, mais dans une question stupéfiante. L'intelligence artificielle (IA) en est un parfait exemple. Son histoire ne commence pas avec une machine rugissante ou une ligne de code magique, mais avec un génie mathématicien qui a proposé une expérience de pensée sur papier. Cet homme et sa question ont ensemble tiré le concept d' 'intelligence', qui avait flotté dans les palais de la philosophie pendant des millénaires, pour la première fois dans l'arène de la science moderne. Il s'agit d'Alan Turing.

En 1950, à l'aube de l'informatique, les machines étaient lourdes et lentes, ne pouvant exécuter que les calculs les plus basiques. Cependant, les pensées de Turing avaient déjà transcendé les limites de son époque. Dans son article révolutionnaire 'Computing Machinery and Intelligence', il a lancé une question apparemment simple mais d'une profondeur incommensurable : 'Les machines peuvent-elles penser ?' Turing a rapidement réalisé que discuter directement de la définition de 'penser' plongerait dans un marécage philosophique sans fin. Il a donc habilement transformé cela en un jeu vérifiable - le 'jeu d'imitation' (The Imitation Game), qui est devenu plus tard le célèbre 'test de Turing'.

Les règles du jeu sont les suivantes : un questionneur communique par écrit avec deux entités anonymes, dont l'une est humaine et l'autre est une machine. Si, pendant une période suffisamment longue, le questionneur ne peut pas distinguer laquelle est la machine, alors nous pouvons dire que cette machine a réussi le test, montrant un comportement intelligent indiscernable de celui d'un humain. C'est ce qui rend le point de départ de l'IA si unique : ce n'est pas une 'invention' visant à résoudre une tâche spécifique, mais un 'défi' visant à répondre à une question fondamentale.

La grandeur du test de Turing réside dans le fait qu'il fournit un standard opérationnel et évaluatif pour le concept flou d' 'intelligence'. Il ne s'agit plus de savoir si une machine a une âme ou une conscience, mais de se concentrer sur son comportement extérieur. C'est comme dire que nous n'avons pas besoin d'ouvrir une boîte noire pour explorer sa structure interne, il suffit d'observer sa sortie pour juger de sa capacité. Cette pensée pragmatique a transformé une pure spéculation philosophique en un objectif d'ingénierie que les ingénieurs et les scientifiques pouvaient commencer à relever.

Turing a semé une graine de pensée, mais pour qu'elle prenne racine et germe, il fallait un sol fertile et un jardinier passionné. Cette personne est rapidement apparue, il s'appelle John McCarthy. En 1955, Turing était déjà décédé, mais sa question inspirait un groupe de jeunes chercheurs de l'autre côté de l'Atlantique. À l'époque, la recherche sur les 'machines pensantes' était dispersée dans divers domaines, avec des noms variés comme 'cybernétique', 'théorie des automates', etc.

Le jeune professeur assistant en mathématiques de Dartmouth, McCarthy, pensait que ces étincelles éparses devaient être rassemblées en une flamme ardente. Il prévoyait d'organiser un séminaire de plusieurs semaines à l'été 1956, invitant les esprits les plus brillants des États-Unis à explorer ensemble la possibilité de simuler l'intelligence humaine avec des machines. Dans la proposition de conférence qu'il a rédigée avec Marvin Minsky et d'autres, ils débordaient d'un optimisme génial, affirmant que 'chaque aspect de l'intelligence peut en principe être décrit avec précision, permettant ainsi aux machines de le simuler'.

Pour donner à ce nouveau domaine une identité claire, McCarthy avait besoin d'un nom accrocheur. Il a délibérément évité le terme influent 'cybernétique', car il ne voulait pas que ce nouveau domaine soit considéré comme une partie du territoire académique de Norbert Wiener, le fondateur de la cybernétique. McCarthy a ensuite déclaré qu'il avait créé ce nouveau terme pour établir une distinction et affirmer une identité académique indépendante. Ce nom qu'il a soigneusement choisi est - 'intelligence artificielle' (Artificial Intelligence).

La conférence de Dartmouth de 1956 est ainsi devenue le 'génie' de l'histoire de l'IA. Elle a non seulement officiellement nommé cette discipline, mais plus important encore, elle a rassemblé un groupe de penseurs partageant un rêve commun, établissant le programme de recherche initial. Lors de la conférence, Allen Newell et Herbert Simon ont présenté le tout premier programme 'pensant' - le 'Logic Theorist', capable de prouver des théorèmes mathématiques comme un humain en utilisant la logique symbolique, ce qui a grandement encouragé les participants.

La naissance du nom 'intelligence artificielle' signifie qu'un nouveau continent a été officiellement découvert. Il a donné à tous les explorateurs passionnés par 'l'intelligence des machines' une identité commune et un drapeau unificateur. Dès lors, ils ne sont plus des mathématiciens, psychologues ou ingénieurs isolés, mais des 'scientifiques de l'intelligence artificielle'. McCarthy a non seulement nommé cette discipline, mais a également créé en 1958 le langage Lisp, cet outil puissant de traitement symbolique est devenu la 'langue officielle' des premiers chercheurs en IA, leur permettant de transformer la logique et les idées abstraites en programmes pouvant réellement fonctionner sur des machines.

De la question philosophique posée par Turing à la 'nomination' d'une discipline par McCarthy, l'intelligence artificielle a réalisé un saut crucial de 0 à 1. Turing a défini l'objectif ultime, tandis que McCarthy a sonné le rassemblement, ouvrant l'un des parcours scientifiques les plus grandioses et les plus excitants de l'histoire humaine. Ce parcours a commencé par la question philosophique 'qui sommes-nous ?', et s'est finalement dirigé vers la pratique scientifique de 'créer une nouvelle intelligence' par le biais de codes et d'algorithmes.

La première confrontation des deux voies : l'optimisme des génies et l'eau froide de la réalité

Pourquoi les premiers scientifiques de l'IA étaient-ils si optimistes ?

À l'aube de l'intelligence artificielle, le domaine était imprégné d'un optimisme presque frénétique. Le cœur de cette confiance provenait d'une croyance simple mais puissante - le symbolisme. Avec Marvin Minsky du MIT en tête, la première génération de scientifiques de l'IA croyait fermement que l'intelligence humaine, ainsi que toutes les activités intellectuelles, pouvaient être décomposées en une série de symboles logiques et de règles formelles. Pour eux, le cerveau n'était qu'une 'machine en chair', et tant que nous pouvions trouver les bonnes règles, nous pourrions reproduire le processus de pensée sur un ordinateur.

Cette croyance n'était pas infondée, mais reposait sur une série de succès précoces enthousiasmants. En 1956, un programme appelé 'Logic Theorist' a fait son apparition, considéré comme le tout premier programme d'intelligence artificielle au sens propre. Ce programme a non seulement réussi à prouver 38 théorèmes du célèbre ouvrage mathématique 'Principia Mathematica', mais a même trouvé des méthodes de preuve plus élégantes que le texte original. L'un de ses créateurs, Herbert A. Simon, a déclaré avec enthousiasme : 'Nous avons inventé un programme informatique capable de penser de manière non numérique, résolvant ainsi le vieux problème corps-esprit.' Ce succès a prouvé au monde que les machines pouvaient effectivement accomplir des tâches intellectuelles créatives, autrefois considérées comme réservées aux humains. Un autre exemple célèbre est le système SHRDLU, capable de comprendre et d'exécuter des tâches complexes dans un monde virtuel de blocs à travers des instructions en langage naturel, comme 'mets cette pyramide rouge sur le bloc bleu'.

Ces succès dans un 'monde de jouets', bien que limités en échelle, ont agi comme une lumière, illuminant le chemin vers l'intelligence générale. Ce sont ces résultats tangibles qui ont grandement encouragé Simon, Minsky et d'autres. Ils ont fait des prédictions qui semblent aujourd'hui extrêmement audacieuses, comme Simon qui a prédit qu'en moins de dix ans, les machines pourraient battre le champion du monde d'échecs et découvrir de nouveaux théorèmes mathématiques importants. À cette époque 'dorée', les gens croyaient généralement que tant qu'ils suivaient le chemin du symbolisme, réaliser une intelligence machine comparable à celle des humains n'était qu'une question de temps.

Comment est venu le premier hiver de l'IA ?

Cependant, l'optimisme des génies a rapidement heurté un mur froid nommé 'réalité'. Lorsque les chercheurs en IA ont tenté d'appliquer ces programmes qui fonctionnaient bien dans le 'monde de jouets' au monde réel et complexe, les problèmes fondamentaux du symbolisme se sont révélés. Tout d'abord, le symbolisme avait du mal à gérer le 'bon sens' et 'l'incertitude' omniprésents dans le monde réel. Les décisions quotidiennes des humains sont pleines de flou, d'intuition et de connaissances contextuelles implicites, qui sont toutes très difficiles à coder en règles logiques précises.

Par exemple, nous savons tous que 'l'eau est humide' et que 'les oiseaux peuvent voler', mais entrer manuellement ces innombrables connaissances dans une machine est presque une tâche impossible. De plus, les systèmes d'IA font face à un obstacle mortel lorsqu'il s'agit de s'étendre - 'l'explosion combinatoire' (combinatorial explosion). Cela signifie que lorsque le nombre de variables d'un problème augmente même légèrement, le nombre de possibilités que le système doit calculer augmente de manière exponentielle, dépassant rapidement la capacité de traitement de n'importe quel ordinateur.

Comme le système SHRDLU, une fois que son 'monde de blocs' devient légèrement plus complexe, ses performances chutent rapidement, devenant irréalistes. Ces limitations fondamentales ont fait que le développement de l'IA a pris beaucoup de retard par rapport aux promesses initiales. Le sentiment de déception a commencé à se répandre, culminant en 1973 avec un document intitulé 'Lighthill Report'. Ce rapport, commandé par le gouvernement britannique, critiquait sévèrement : 'Aucun domaine n'a encore atteint l'impact significatif promis.'

Le rapport pointait directement l'échec de la recherche en IA à résoudre des problèmes réels, en particulier son incapacité à faire face au problème de 'l'explosion combinatoire', et en est venu à la conclusion que de nombreuses recherches fondamentales en IA ne méritaient pas de continuer à être financées. La publication de ce rapport a conduit directement le gouvernement britannique à réduire considérablement le financement de la recherche en IA, et de nombreux laboratoires universitaires en IA ont été contraints de fermer. Ce froid a également touché les États-Unis, où les agences de financement ont commencé à devenir prudentes, préférant des projets à court terme avec des perspectives d'application claires.

Ainsi, en raison du grand fossé entre promesses et réalité, l'intelligence artificielle a connu son premier 'hiver'. Même Minsky a plus tard admis que leur 'plus grande erreur... était de ne pas réaliser à quel point le problème que nous essayions de résoudre était difficile'.

Pourquoi dire que faire en sorte que l'IA apprenne à 'accepter l'incertitude' est un progrès majeur ?

Alors que le chemin du symbolisme était dans une impasse, une autre voie de pensée radicalement différente a apporté un nouvel espoir à l'IA. Le pionnier de cette nouvelle voie est Judea Pearl, lauréat du prix Turing. Il a conduit une 'révolution probabiliste', dont l'idée centrale est : plutôt que de forcer l'IA à comprendre le monde avec une logique binaire, il vaut mieux lui apprendre à accepter et à traiter 'l'incertitude'. L'arme révolutionnaire de Pearl est le 'réseau bayésien' (Bayesian networks) qu'il a proposé à la fin des années 1980.

C'est un modèle graphique astucieux qui peut représenter les relations de dépendance probabiliste entre différentes variables à l'aide d'une structure graphique intuitive. Plus important encore, il fournit un ensemble de méthodes mathématiques rigoureuses permettant à l'IA de mettre à jour dynamiquement sa 'croyance' sur la probabilité d'événements en fonction de nouvelles preuves. Cela a montré une grande puissance dans des domaines comme le diagnostic médical. Les systèmes experts traditionnels tentaient de diagnostiquer en utilisant des règles rigides de 'si... alors...', par exemple 'si le patient a de la fièvre, alors il pourrait avoir la grippe'.

Mais la réalité est bien plus complexe : la fièvre peut également être le symptôme d'autres maladies, et l'intensité des associations entre chaque symptôme et maladie varie. Ce type de système basé sur des règles absolues devient souvent très fragile face à des informations incomplètes ou contradictoires. En revanche, la méthode basée sur les réseaux bayésiens est complètement différente. Elle peut construire un réseau de relations probabilistes contenant plusieurs maladies et symptômes. Lorsque le médecin entre la preuve 'le patient a de la fièvre', le système ne tirera pas une conclusion absolue, mais mettra automatiquement à jour les probabilités de toutes les maladies pertinentes (comme la grippe, la pneumonie, etc.) en fonction du théorème de Bayes.

Si l'on entre ensuite la nouvelle preuve 'le patient tousse', le système recalculera à nouveau, ajustant davantage la distribution des probabilités pour fournir une suggestion de diagnostic plus proche de la réalité, basée sur les probabilités. Ce changement de la recherche de 'certitude' à l'acceptation de 'l'incertitude' représente un progrès majeur en matière de pensée. Il a permis à l'IA d'avoir pour la première fois la capacité de raisonner et de prendre des décisions de manière raisonnable dans un monde réel rempli d'informations incomplètes et d'ambiguïtés. Le travail de Pearl a non seulement fourni de nouveaux outils puissants pour aider l'IA à sortir de l'impasse de la réalité, mais a également été largement appliqué dans des domaines tels que la médecine, la reconnaissance vocale et le diagnostic des pannes. Plus important encore, il a ouvert une nouvelle voie vers une intelligence plus puissante pour le développement de l'intelligence artificielle.

Tenir bon pendant l'hiver : la renaissance des réseaux neuronaux et des 'trois géants'

Lorsque l'optimisme du symbolisme s'estompa, la recherche en intelligence artificielle est entrée dans un long et froid 'hiver', la plupart des chercheurs et des financements se tournant vers des domaines plus pratiques comme les systèmes experts. Cependant, à la périphérie du monde académique, un petit groupe de personnes croyait fermement que le chemin du connexionnisme et des réseaux neuronaux, qui avait été critiqué par Marvin Minsky et presque abandonné, était la bonne direction vers une véritable intelligence. Ils étaient les gardiens de l'hiver, une minorité au sein d'une minorité.

C'est cette croyance presque obstinée qui a finalement enflammé le feu de la deuxième révolution de l'intelligence artificielle. Le leader de ce groupe était Geoffrey Hinton, Yann LeCun et Yoshua Bengio, qui sont devenus plus tard connus sous le nom de 'trois géants de l'apprentissage profond'.

Qu'est-ce que 'l'apprentissage profond' ?

Pour comprendre la contribution de ces trois scientifiques, nous devons d'abord répondre à une question fondamentale : qu'est-ce que 'l'apprentissage profond' ? Quelle est la différence essentielle avec les réseaux neuronaux précoces ? Les réseaux neuronaux précoces, comme le perceptron, avaient une structure très simple, généralement composée d'une ou deux couches. C'est comme un enfant qui débute en dessin, capable de reconnaître seulement des lignes et des formes de base. Si vous voulez qu'il reconnaisse un chat, vous devez d'abord lui dire manuellement quelles sont les caractéristiques d'un chat - 'a des oreilles pointues', 'a des moustaches', 'a un visage rond'.

Ce processus est appelé 'ingénierie des caractéristiques', il est long et laborieux, et les résultats sont souvent insatisfaisants, car le monde réel est bien plus complexe. L'apprentissage profond, comme son nom l'indique, repose sur la 'profondeur' - il utilise des réseaux neuronaux contenant de nombreuses couches (de quelques couches à des centaines de couches). Cette structure multicouche lui confère une capacité puissante : apprendre automatiquement des caractéristiques. Nous pouvons utiliser une métaphore plus vivante pour comprendre : il ne s'agit plus d'apprendre à un enfant à dessiner, mais de lui donner un système complet de cortex visuel.

Lorsqu'il voit une image de chat, la première couche de ce réseau 'profond' peut automatiquement apprendre à reconnaître les bords et les coins les plus basiques ; la deuxième couche, basée sur les résultats de la première, apprend à combiner des formes plus complexes comme les yeux et les oreilles ; et ainsi de suite, les couches plus profondes apprendront à reconnaître le concept de 'visage de chat' ou même de 'chat' entier. L'ensemble du processus est de bout en bout, des pixels bruts à la conclusion finale de 'chat', la machine apprend de manière autonome, sans que les humains aient à définir ce qu'est une 'oreille pointue' ou une 'moustache'.

Cette méthode d'apprentissage, passant du concret à l'abstrait, est la différence essentielle entre l'apprentissage profond et les réseaux neuronaux précoces, et c'est la source de sa puissance.

Les 'trois géants' : la minorité qui a allumé la flamme pendant l'hiver

C'est cette croyance commune dans la puissance de la 'profondeur' qui a étroitement lié Hinton, LeCun et Bengio. Pendant des décennies où les réseaux neuronaux étaient négligés, ils ont fait face aux doutes du monde académique, comme trois torches solitaires, chacun combattant dans des directions différentes, mais se répondant à distance, résolvant finalement ensemble le problème central qui a permis à l'apprentissage profond de passer de la théorie à la réalité.

Geoffrey Hinton : le fondateur qui a rendu les réseaux profonds 'entraînables' Hinton est connu comme le 'père de l'apprentissage profond', sa plus grande contribution a été de résoudre le problème fondamental de 'comment entraîner efficacement un réseau profond'.

En 1986, il a promu avec ses collaborateurs l'algorithme de rétropropagation (Backpropagation). Cet algorithme est comme un professeur strict, lorsque le réseau fait une erreur, il peut transmettre le signal d'erreur de la dernière couche en arrière, couche par couche, pour dire à chaque neurone comment ajuster ses paramètres afin de mieux faire la prochaine fois. Cette percée a rendu possible l'entraînement de réseaux neuronaux multicouches, posant les bases de tout le domaine de l'apprentissage profond.

Yann LeCun : le pionnier qui a permis à l'IA de 'voir' le monde LeCun s'est concentré sur la manière de faire 'voir' aux machines le monde. Il a réalisé que le traitement des images ne pouvait pas être traité de la même manière que les données ordinaires. Inspiré par le cortex visuel biologique, il a développé à la fin des années 1980 les réseaux neuronaux convolutifs (Convolutional Neural Networks, CNN).

Les CNN imitent la manière dont les yeux capturent des informations locales à l'aide de 'noyaux de convolution', et grâce au 'partage de poids', ils réduisent considérablement le nombre de paramètres du modèle, le rendant à la fois efficace et précis lors du traitement des images. Le réseau LeNet-5 qu'il a conçu en 1998 a été appliqué avec succès au système de reconnaissance des chiffres manuscrits sur les chèques bancaires, devenant un exemple emblématique de la première application commerciale des CNN, et a ouvert la voie à toutes les percées ultérieures en vision par ordinateur.

Yoshua Bengio : le théoricien qui a permis à l'IA de comprendre le 'langage' Pendant que LeCun enseignait à l'IA comment 'voir', Bengio réfléchissait à la manière de faire 'lire' et 'comprendre' à l'IA.

Il s'est engagé à résoudre le problème de 'l'explosion dimensionnelle' dans le traitement du langage naturel (NLP). Son modèle de langage probabiliste neuronal a introduit de manière innovante le concept d'embeddings de mots (Word Embeddings). Cette technique mappe chaque mot dans un espace vectoriel continu de haute dimension, de sorte que les mots sémantiquement proches se trouvent également proches dans l'espace. Par exemple, les vecteurs de 'roi' et 'reine' seront très proches. Cela a permis à la machine de capturer pour la première fois les relations sémantiques entre les mots, posant ainsi des bases solides pour le développement de la traduction automatique, de l'analyse des sentiments et de tous les modèles séquentiels ultérieurs.

Ces trois scientifiques, l'un a résolu 'comment apprendre' (rétropropagation), l'autre 'comment voir' (CNN), et le dernier 'comment comprendre' (embeddings de mots), leurs travaux se complètent mutuellement, construisant ensemble la carte technologique centrale de l'apprentissage profond moderne.

2012 ImageNet : le 'Big Bang' qui a déclenché la révolution

Bien que les 'trois géants' aient déjà préparé la poudre théorique, il fallait un moment décisif pour déclencher cette révolution. Ce moment est arrivé en 2012. Le défi de reconnaissance visuelle à grande échelle ImageNet (ILSVRC) était alors l' 'Olympiade' du domaine de la vision par ordinateur, exigeant que les algorithmes participants identifient et classifient plus d'un million d'images, couvrant 1000 catégories. Avant 2012, le champion de la compétition était toujours occupé par des équipes utilisant des méthodes d'apprentissage machine traditionnelles, et l'amélioration des performances était toujours laborieuse.

Cependant, cette année-là, tout a changé. Hinton et ses deux étudiants - Alex Krizhevsky et Ilya Sutskever - ont participé avec un réseau de neurones convolutifs profonds nommé AlexNet. AlexNet est un réseau de 8 couches de profondeur, qui non seulement utilise l'architecture CNN de LeCun, mais utilise également de manière créative des techniques telles que la fonction d'activation ReLU et le Dropout pour améliorer les performances et prévenir le surapprentissage, tout en s'appuyant sur la puissance de calcul de deux GPU pour un entraînement parallèle.

Le résultat a été révolutionnaire. AlexNet a remporté le championnat avec un taux d'erreur Top-5 de 15,3 %, tandis que le deuxième a obtenu 26,1 %. Cet écart énorme de plus de 10 points de pourcentage a provoqué un tremblement de terre dans tout le domaine de l'IA. Ce n'était plus un petit progrès, mais un écrasement dimensionnel. Cette victoire a prouvé sans équivoque que, avec suffisamment de données et de puissance de calcul, les performances de l'apprentissage profond dépassent de loin toutes les méthodes traditionnelles. La compétition ImageNet de 2012 est donc reconnue comme un événement charnière dans l'histoire de l'IA, le 'point de déclenchement' de la révolution de l'apprentissage profond.

Comme l'a dit Hinton, par la suite, 'presque toutes les recherches en vision par ordinateur se sont tournées vers les réseaux neuronaux'. Cette victoire a sonné le coup d'envoi de la fin définitive de l'hiver de l'IA et l'ouverture d'une nouvelle ère dominée par l'apprentissage profond. Ceux qui ont tenu bon dans l'obscurité pendant des décennies ont enfin vu leur lumière.

De laboratoire au monde entier

La création, la diffusion et la réflexion sur l'IA Si les trois géants de l'apprentissage profond ont trouvé un puissant moteur pour l'intelligence artificielle, alors l'histoire après 2010 concerne la manière de connecter ce moteur à un volant, de construire des routes, et finalement de réfléchir à la direction que cette machine va prendre pour l'humanité.

Ce processus a également été propulsé par plusieurs figures clés, qui ont répondu à trois questions centrales : Comment l'IA apprend-elle à 'créer' ? Comment l'IA sort-elle de la tour d'ivoire ? Et lorsque l'IA possède un immense pouvoir, comment devons-nous le contrôler ? La transformation qualitative de l'IA générative : Ian Goodfellow et l'inspiration d'un débat dans un bar En 2014, Ian Goodfellow, alors doctorant à Montréal, a eu une idée brillante lors d'une soirée avec des amis dans un bar.

Un débat académique sur la manière de faire générer des photos réalistes par un ordinateur a allumé son inspiration. Ce soir-là, il a conçu un cadre génial - les réseaux antagonistes génératifs (Generative Adversarial Networks, GAN). L'essence de cette idée réside dans 'l'antagonisme'. Le système GAN est composé de deux réseaux neuronaux en compétition : un 'générateur' (Generator) et un 'discriminateur' (Discriminator).

La tâche du générateur est de devenir un 'faux artiste' habile, apprenant continuellement les caractéristiques des données réelles, puis créant de toutes pièces des 'faux' (comme une photo de visage fausse). Le discriminateur, quant à lui, joue le rôle d'un 'expert', dont l'unique objectif est de distinguer avec précision les données réelles des faux produits par le générateur. Le processus d'entraînement ressemble à un jeu à somme nulle sans fin : le générateur s'efforce de tromper le discriminateur, tandis que le discriminateur s'efforce de démasquer la tromperie.

Dans ce processus d'escalade antagoniste, les deux évoluent ensemble. Finalement, lorsque le discriminateur ne peut plus faire la distinction entre le vrai et le faux, cela signifie que le générateur a maîtrisé la capacité de créer des données d'une grande fidélité. Cette idée est si novatrice et puissante que Yann LeCun, l'un des trois géants de l'apprentissage profond, l'a saluée comme 'l'idée la plus intéressante du domaine de l'apprentissage automatique au cours des 20 dernières années'. La naissance des GAN marque une transformation qualitative dans l'histoire du développement de l'IA.

Avant cela, l'IA ressemblait davantage à un 'identificateur' diligent, spécialisée dans la classification, l'identification et la prédiction. Les GAN ont donné à l'IA l'identité de 'créateur', lui permettant pour la première fois de générer de nouveaux contenus complexes à partir de rien, ouvrant directement la porte à l'ère de l'AIGC (intelligence artificielle générative) que nous connaissons aujourd'hui.

La clé de la diffusion technologique : Andrew Ng et la prédication du 'nouveau pouvoir'

Une technologie révolutionnaire, si elle reste confinée dans un laboratoire, sa valeur reste limitée. Transformer l'IA d'un outil pour quelques élites en une compétence que des millions de personnes à travers le monde peuvent apprendre et appliquer, Andrew Ng a joué un rôle crucial en tant que 'prêcheur'. En tant que professeur à l'Université de Stanford et co-fondateur de Coursera, le cours en ligne 'Machine Learning' qu'il a lancé en 2011 est devenu le point de départ de la vague des MOOC (cours en ligne ouverts et massifs), attirant des millions d'inscriptions à travers le monde.

Par la suite, les cours 'Deep Learning Specialization' qu'il a lancés en collaboration avec DeepLearning.AI et 'AI for Everyone' destinés aux non-techniciens ont encore abaissé le seuil d'accès aux connaissances en IA. En 2023, plus de 8 millions de personnes avaient participé à ses cours. Ng a non seulement diffusé des connaissances, mais a également proposé une idée d'une portée considérable : 'L'IA est le nouveau pouvoir' (AI is the new electricity).

Il a soutenu que, tout comme la révolution électrique a transformé de manière révolutionnaire l'agriculture, le transport, l'industrie manufacturière et presque tous les secteurs il y a un siècle, l'IA est aujourd'hui une technologie fondamentale, redéfinissant les industries avec une puissance sans précédent. Cette métaphore souligne avec précision l'avenir de l'IA - ce n'est pas un produit isolé, mais une infrastructure qui va s'infiltrer dans tous les aspects de la société. C'est cette vision de l'application de l'IA à l'ingénierie et à l'industrialisation qui a grandement accéléré le passage de l'IA de la recherche académique à la pratique industrielle.

L'alarme éthique de l'IA

Timnit Gebru et la réflexion inévitable Lorsque la puissance de l'IA croît de manière exponentielle et commence à s'immiscer profondément dans les décisions sociales, une question sérieuse se pose à tous : comment pouvons-nous garantir que cette technologie est équitable, juste et responsable ? La scientifique en éthique de l'IA Timnit Gebru est devenue l'une des figures les plus représentatives de ce domaine. En 2018, Gebru et ses collaborateurs ont publié une étude marquante intitulée 'Gender Shades'.

Ils ont découvert que les systèmes de reconnaissance faciale commerciaux dominants de l'époque présentaient de graves biais : lors de l'identification d'hommes à la peau claire, le taux de précision était presque parfait ; mais lors de l'identification de femmes à la peau foncée, le taux d'erreur atteignait près de 35 %. Cette étude a agi comme une sonnette d'alarme, révélant comment les biais dans les données d'entraînement peuvent être amplifiés par les systèmes d'IA, causant ainsi des injustices systémiques aux groupes marginalisés. Cette recherche a directement incité des entreprises comme IBM et Microsoft à améliorer leurs algorithmes pour réduire les biais.

Quelques années plus tard, alors qu'elle était co-responsable de l'équipe d'éthique de l'IA chez Google, Gebru s'est à nouveau retrouvée sous les projecteurs en raison d'un article intitulé 'Les dangers des perroquets aléatoires : les modèles de langage peuvent-ils devenir trop grands ?'. Cet article a souligné les biais, les coûts environnementaux et les risques associés aux grands modèles de langage, qui ne font que reproduire les modèles linguistiques humains sans véritable compréhension de leur signification - tout comme un 'perroquet aléatoire'. Cet article a provoqué un conflit entre elle et la direction de Google, entraînant finalement son départ.

L'expérience de Gebru marque l'entrée de l'IA dans une nouvelle phase. Lorsque l'IA n'est plus seulement un jouet de laboratoire, mais un outil puissant capable d'influencer le recrutement, l'approbation de crédits et même les décisions judiciaires, il devient crucial d'examiner ses biais, ses risques et son impact social. Son travail rappelle à l'ensemble de l'industrie que les avancées technologiques, si elles sont détachées des préoccupations humaines et des responsabilités sociales, peuvent apporter non pas le bien-être, mais de nouvelles chaînes. De la création de Goodfellow à la vulgarisation de Ng, en passant par la réflexion de Gebru, les histoires de ces trois personnages esquissent ensemble le tableau complet de l'IA à l'ère moderne : une technologie d'une créativité illimitée, s'intégrant dans le monde à une vitesse sans précédent, tout en nous forçant à réfléchir sérieusement à la manière de coexister avec elle.

Commencer par une question

'Les machines peuvent-elles penser ?' Chaque grande transformation commence souvent non par une invention spectaculaire, mais par une question stupéfiante. La genèse de l'intelligence artificielle (IA) est ainsi. Son point de départ n'est pas une machine concrète, ni une ligne de code magique, mais une question philosophique posée au monde par le mathématicien britannique Alan Turing au milieu du 20ème siècle : 'Les machines peuvent-elles penser ?' À une époque où les ordinateurs étaient aussi grands qu'une pièce, cette question semblait relever de la science-fiction. Mais l'extraordinaire de Turing réside dans le fait qu'il n'a pas laissé cette question se cantonner à la spéculation philosophique. Il a conçu une expérience de pensée astucieuse - le 'jeu d'imitation', qui est devenu plus tard le célèbre 'test de Turing'. Ce test contourne habilement la définition du concept flou de 'penser', en posant plutôt la question : si une machine peut dialoguer avec un humain et que son comportement est indiscernable de celui d'un humain, pouvons-nous alors considérer que cette machine possède de l'intelligence ?

La formulation de cette question a été comme un éclair déchirant la nuit. Elle a pour la première fois tiré le rêve ancien de 'créer de l'intelligence' du domaine du mythe et de la philosophie vers un domaine vérifiable et défiable d'ingénierie. Turing ne nous a pas donné de réponses, mais il a fourni à tous ses successeurs un objectif clair et un plan à commencer à dessiner. Il a dit au monde : l'intelligence peut peut-être être décrite et simulée avec précision. Cette étincelle de pensée a été semée dans un sol extrêmement fertile.

Le monde d'après-guerre, en particulier dans les années 1950, était imprégné d'un optimisme scientifique sans précédent et d'un esprit 'can-do' (je peux le faire). L'humanité venait de maîtriser l'énergie atomique, d'inventer l'ordinateur électronique et de déchiffrer le code de la vie. La victoire de la science a amené les gens à croire qu'avec l'intelligence humaine et les puissants outils nouvellement inventés, aucun défi grandiose n'était insurmontable. Si les machines pouvaient calculer des trajectoires complexes et déchiffrer les codes ennemis, pourquoi ne pas aller plus loin et imiter, voire posséder, la capacité d'apprentissage, de raisonnement et de création des humains ?

C'est dans ce contexte historique qu'un groupe des esprits les plus brillants et visionnaires de l'époque a commencé à être attiré par le même rêve. Cependant, leurs étincelles d'idées étaient dispersées dans divers domaines tels que les mathématiques, la psychologie, la théorie de l'information et la nouvelle science informatique. Ils avaient besoin d'une opportunité, d'un moment où ces ruisseaux éparpillés pourraient converger en une grande rivière. Ce moment est arrivé à l'été 1956. Un jeune mathématicien nommé John McCarthy, avec Marvin Minsky, Nathaniel Rochester et Claude Shannon, le père de la théorie de l'information, a soumis une proposition audacieuse à la Fondation Rockefeller.

Ils prévoyaient d'organiser un séminaire d'été de plusieurs semaines au Dartmouth College dans le New Hampshire, aux États-Unis. Le début de la proposition débordait de l'optimisme et de l'ambition de l'époque : 'Nous proposons de mener une recherche sur l'intelligence artificielle à l'été 1956... La recherche sera basée sur une hypothèse, à savoir que chaque aspect de l'apprentissage ou toute autre caractéristique de l'intelligence peut en principe être décrite avec précision, permettant ainsi aux machines de le simuler.' Pour donner à ce nouveau domaine une identité claire, McCarthy a soigneusement créé un nouveau terme : 'intelligence artificielle' (Artificial Intelligence).

Ce choix n'était pas anodin. À l'époque, un domaine appelé 'cybernétique' avait déjà une certaine influence, étudiant principalement les systèmes de rétroaction et de contrôle dans les organismes et les machines. Mais McCarthy voulait ouvrir une nouvelle voie, plus axée sur la réalisation de fonctions cognitives avancées telles que la logique et le raisonnement par le biais d'ordinateurs, plutôt que d'être contraint par le cadre de la cybernétique. La naissance de ce nom a agi comme une déclaration d'indépendance retentissante, fournissant un drapeau commun à tous les explorateurs partageant le même rêve.

L'été 1956, cette réunion, plus tard connue sous le nom de 'conférence de Dartmouth', a eu lieu comme prévu. Ce n'était pas une conférence académique rigoureuse, mais plutôt une longue tempête d'idées qui a duré de six à huit semaines. Allen Newell, Herbert Simon, Ray Solomonoff et d'autres géants du domaine de l'IA étaient tous présents. Ils venaient de milieux variés, apportant des perspectives différentes en logique, psychologie, mathématiques et ingénierie.

L'un des moments forts de la conférence a été la démonstration du programme 'Logic Theorist' par Newell et Simon. Ce programme a réussi à prouver plusieurs théorèmes du célèbre ouvrage mathématique 'Principia Mathematica'. Ce n'était pas seulement une démonstration technique, mais une déclaration au monde prouvant que les machines pouvaient effectivement exécuter des tâches de raisonnement symbolique, autrefois considérées comme réservées aux humains. Cela a donné une première réponse positive et visible à la question 'Les machines peuvent-elles penser ?'.

C'est ainsi que s'est produite la 'genèse' de l'IA. Elle n'est pas née d'un succès unique dans un laboratoire, mais s'est produite lors d'une grande rencontre d'idées. La conférence de Dartmouth est si importante pour trois raisons : Premièrement, elle a donné un nom à ce domaine. Dès lors, 'l'intelligence artificielle' a eu une identité officielle, attirant des financements, des talents et de l'attention. Deuxièmement, elle a établi un programme central. La conférence a exploré des directions telles que le traitement symbolique, les réseaux neuronaux, le traitement du langage naturel, qui sont devenues les principales voies de recherche en IA au cours des décennies suivantes. Troisièmement, elle a établi la première communauté. Cette conférence a connecté un groupe de penseurs solitaires en une communauté académique, qui, après être retournés dans leurs institutions, ont tous établi les premiers laboratoires d'IA (comme le MIT, Carnegie Mellon et Stanford), semant les graines des futurs arbres majestueux. La conférence de Dartmouth est célébrée par les générations futures comme 'la convention constitutionnelle de l'IA'. Elle a officiellement transformé la grande question posée par Turing en un parcours scientifique vaste et captivant, attirant des générations de talents d'élite.

Bien que les participants aient été trop optimistes dans leurs prévisions pour l'avenir, ne prévoyant pas les obstacles et les 'hivers' à venir, la flamme qu'ils ont allumée n'a jamais été éteinte. D'une question à la naissance d'une discipline. L'histoire de l'IA commence ici.

Les rêves fous des génies et le mur de la réalité

Après que la conférence de Dartmouth a officiellement nommé l'intelligence artificielle, une 'ère dorée' pleine d'optimisme illimité et de prévisions audacieuses (environ 1956-1974) a commencé.

Ces premiers pionniers de l'IA, représentés par Herbert Simon et Marvin Minsky, croyaient fermement qu'ils avaient la clé de l'intelligence machine. Leur confiance n'était pas infondée, mais alimentée par une série de succès étonnants obtenus dans un 'monde miniature'. Le succès le plus représentatif de ces premiers résultats est le programme 'Logic Theorist'. Développé en 1956 par Allen Newell, Herbert Simon et J.C. Shaw, ce programme est largement considéré comme le premier programme d'intelligence artificielle au monde.

Sa tâche était de prouver les théorèmes mathématiques proposés par Whitehead et Russell dans leur ouvrage monumental 'Principia Mathematica'. Le résultat a été stupéfiant : 'Logic Theorist' a non seulement prouvé 38 des 52 théorèmes du livre, mais a même trouvé une méthode de preuve plus concise et élégante pour l'un d'eux. Ce succès a grandement encouragé les chercheurs, car il a clairement montré que les machines pouvaient non seulement calculer, mais aussi effectuer des activités de raisonnement logique complexes, autrefois considérées comme réservées aux humains.

Ensuite, l'équipe a lancé en 1959 le 'General Problem Solver' (GPS). La révolution du GPS réside dans le fait qu'il tentait de simuler la manière de penser humaine pour résoudre des problèmes. Il séparait les connaissances spécifiques d'un domaine (comme les règles) des stratégies de résolution générales, adoptant une stratégie appelée 'analyse moyens-objectifs', établissant continuellement des sous-objectifs pour se rapprocher de la réponse finale. Le GPS a réussi à résoudre une série d'énigmes logiques classiques, telles que la tour de Hanoï et les preuves géométriques, montrant ainsi l'espoir de créer une 'machine pensante' capable de résoudre des problèmes généraux à travers différents domaines.

Si le GPS a démontré la capacité de 'penser' des machines, le système SHRDLU du MIT a permis aux machines d'interagir pour la première fois avec le monde physique, leur conférant une capacité de 'compréhension'. Dans ce 'monde de blocs' virtuel créé par Terry Winograd en 1970, les utilisateurs pouvaient donner des instructions au système en anglais courant, comme 'prends ce grand bloc rouge'. SHRDLU pouvait analyser les instructions, comprendre le contexte (par exemple, lorsqu'on lui demandait 'quelle pyramide ?', il demanderait des clarifications), planifier et exécuter une série d'actions (comme saisir, déplacer, empiler), et même répondre à des questions sur l'état de ce monde. Le succès de SHRDLU a parfaitement intégré la compréhension du langage, le raisonnement et l'exécution d'actions, donnant l'impression que l'on voyait émerger un robot intelligent capable de dialoguer librement avec les humains et de travailler en collaboration. Ces victoires éclatantes dans des 'mondes de jouets' aux règles claires ont engendré un optimisme immense.

Simon a audacieusement prédit en 1965 : 'Dans vingt ans, les machines seront capables d'accomplir tout ce que les humains peuvent faire.' Minsky a également acquiescé : 'Dans une génération... le problème de la création de 'l'intelligence artificielle' sera fondamentalement résolu.' Cependant, lorsque ces rêves de génie ont tenté de passer des laboratoires idéalisés au monde réel complexe, ils ont rapidement heurté un mur froid et dur. Ce mur était constitué de deux problèmes fondamentaux. Le premier est 'l'explosion combinatoire' (Combinatorial Explosion).

Dans un monde de blocs simple, les possibilités sont limitées. Mais lorsque l'échelle du problème augmente légèrement, par exemple en passant des échecs à Go, ou en planifiant le mouvement de quelques blocs à la planification du trafic urbain, le nombre de possibilités à calculer augmente de manière exponentielle, épuisant instantanément la puissance de calcul des ordinateurs les plus puissants de l'époque, et même d'aujourd'hui. L'élégance des premiers succès de l'IA face à des 'problèmes de jouets' s'est effondrée face à la complexité de la réalité. Le deuxième problème est encore plus fondamental - 'l'absence de bon sens et de contexte'.

Le monde humain est rempli de nombreuses connaissances implicites et de contextes flous. Par exemple, nous savons que 'l'eau est humide', 'une corde peut être tirée mais pas poussée', 'si une personne est mouillée, elle pourrait attraper un rhume'. Ces connaissances sont si fondamentales que nous n'en sommes même pas conscients. Mais pour un système d'IA qui ne comprend que la logique et les règles, ce monde est complètement étranger. Il ne peut pas comprendre ces connaissances implicites, ce qui rend son raisonnement extrêmement fragile et absurde dans des scénarios réels.

SHRDLU peut comprendre 'prendre un bloc', mais il ne peut pas comprendre ce que signifie 'prendre un engagement'. Ce dilemme de 'l'ancrage symbolique', où les symboles ne peuvent pas être associés à la signification du monde réel, est devenu un fossé que l'IA symbolique a du mal à franchir. Les attentes trop élevées et la réalité brutale ont créé un grand fossé, et le sentiment de déception a commencé à se répandre, culminant finalement avec deux événements emblématiques qui ont déclenché le premier 'hiver' de l'intelligence artificielle. Le premier événement est le 'Lighthill Report' publié par le gouvernement britannique en 1973.

Ce rapport, rédigé par le mathématicien appliqué Sir James Lighthill, a critiqué sans pitié la recherche en IA de l'époque. Le rapport a souligné que l'IA n'avait 'à ce jour réalisé aucun impact significatif dans des domaines tels que l'automatisation et le traitement du langage'. Il a directement pointé les deux faiblesses de la recherche en IA : l'incapacité à résoudre des problèmes du monde réel en raison de 'l'explosion combinatoire', et l'incapacité totale à traiter le 'bon sens'. Ce rapport influent a conduit directement le gouvernement britannique à réduire considérablement le financement de la recherche universitaire en IA, plongeant la recherche en IA au Royaume-Uni dans une quasi-stagnation.

Le deuxième coup dur est venu des États-Unis, envoyé par l'un des leaders du domaine de l'IA, Marvin Minsky lui-même. En 1969, Minsky et Seymour Papert ont coécrit 'Perceptrons'. Dans ce livre, ils ont prouvé mathématiquement les limitations fondamentales d'une autre voie technique - le connexionnisme (c'est-à-dire les précurseurs des réseaux neuronaux) qui était alors en parallèle avec le symbolisme. Ils ont prouvé qu'un réseau neuronal à une seule couche (c'est-à-dire le 'perceptron') est un modèle linéaire, incapable de résoudre certains problèmes fondamentaux, comme le simple problème 'XOR'.

Cette conclusion était correcte en soi, mais elle a été interprétée par le public comme une 'sentence de mort' pour l'ensemble de la voie des réseaux neuronaux. L'énorme influence de ce livre a conduit à un arrêt presque complet du financement pour la recherche en connexionnisme, plongeant cette voie, qui aurait pu compléter le symbolisme, dans un long silence de plus de dix ans. Ainsi, l'enthousiasme s'est rapidement refroidi. Des attentes trop élevées, des goulots d'étranglement théoriques difficiles à surmonter, et le retrait des financements qui a suivi ont tous contribué à plonger l'intelligence artificielle dans son premier long hiver.

Les rêves des génies ont heurté le mur de la réalité, et l'ensemble du domaine est tombé du sommet bruyant dans le silence du fond, attendant la prochaine résurgence dans l'ombre.

L'ombre et la résurgence

Chercher un chemin dans l'incertitude À la fin des années 1980, l' 'ère dorée' de l'intelligence artificielle a été frappée par un vent glacial. Le marché des systèmes experts, autrefois prometteur, s'est effondré, l'industrie des machines LISP a décliné, et l'enthousiasme des investissements gouvernementaux et des entreprises a fortement diminué. La recherche en IA est à nouveau tombée dans une vallée, marquant le début du deuxième 'hiver de l'IA'.

Cependant, contrairement à la première période de silence quasi total, cette fois-ci, le développement de l'IA n'a pas complètement cessé, mais a agi comme une rivière gelée, silencieuse en surface, mais avec deux courants souterrains qui couvaient. Un courant est la 'science visible' qui s'efforce de prouver sa valeur dans des domaines spécifiques. L'autre est le 'courant souterrain' qui accumule silencieusement de la force, attendant le printemps. La première voie est l'exploration de survie de l'IA symbolique dans l'adversité. Bien que les systèmes experts aient finalement décliné en raison de leur coût élevé de construction de bases de connaissances et de leur incapacité à traiter l'incertitude, ils ont laissé un héritage précieux : ils ont prouvé que l'IA pouvait résoudre des problèmes pratiques dans des scénarios spécifiques, allumant la première lumière pour l'application commerciale de l'IA.

Plus important encore, dans le processus de réflexion sur les raisons de l'échec des systèmes experts, un penseur a indiqué une nouvelle direction pour le développement de l'IA. Il s'agit de Judea Pearl. Pearl a réalisé que le monde réel est rempli d'incertitudes, et que les règles logiques binaires ne suffisent pas à décrire la complexité du monde. Il a introduit la théorie des probabilités et l'inférence causale dans l'IA, enseignant aux machines comment penser en termes de 'possibilités', comment prendre des décisions raisonnables avec des informations incomplètes.

Cela représente non seulement un complément important au symbolisme, mais a également permis à l'IA de faire un pas clé vers un monde réel rempli d'inconnues et de changements, loin d'un monde logique idéalisé. Pendant ce temps, une autre voie plus secrète et révolutionnaire était en train de 'nager' à la périphérie du monde académique. C'est la recherche en connexionnisme, représentée par les réseaux neuronaux. Les explorateurs de cette voie sont de véritables 'plongeurs en profondeur'. Leur arsenal a été enrichi d'une arme théorique puissante. En 1986, Geoffrey Hinton et ses collègues ont redécouvert l'algorithme de rétropropagation et ont prouvé systématiquement son efficacité.

Cet algorithme a habilement résolu le problème de l'entraînement des réseaux neuronaux multicouches, permettant aux machines d'ajuster progressivement leurs paramètres internes en 'réfléchissant' sur les erreurs, apprenant ainsi des modèles plus complexes. Hinton se souvient plus tard qu'ils étaient optimistes, pensant que cet algorithme 'résoudrait tout'. Cependant, la lumière théorique n'a pas immédiatement dissipé le froid de la réalité. Dans les années 90, la recherche sur les réseaux neuronaux a rapidement heurté trois murs : le manque de puissance de calcul, la rareté des données et les doutes académiques de leurs pairs. À l'époque, les performances des ordinateurs étaient faibles, incapables de soutenir l'entraînement de réseaux à grande échelle.

En même temps, des méthodes d'apprentissage statistique comme les machines à vecteurs de support (SVM) ont montré de meilleures performances que les réseaux neuronaux de l'époque dans de nombreuses tâches, ce qui a conduit à un flux massif de financements et de talents vers d'autres domaines. Les réseaux neuronaux ont de nouveau été considérés comme une technique irréaliste, et la recherche a été confrontée à des difficultés de financement et à un manque d'attention. C'est dans ce contexte difficile que certains chercheurs ont choisi de tenir bon. Yann LeCun est l'un des représentants les plus remarquables.

En 1988, il a rejoint les laboratoires Bell d'AT&T, faisant face à la pression du monde académique dominant, et a consacré toute son énergie au développement d'un type particulier de réseau neuronal - le réseau neuronal convolutif (CNN). Il croyait fermement que cette structure de réseau imitant le cortex visuel biologique était la clé pour permettre aux machines de 'voir' le monde. L'objectif de LeCun était très clair : faire reconnaître aux machines les chèques bancaires manuscrits. Après des années d'itération, son équipe a lancé en 1998 le modèle classique LeNet-5.

Ce réseau a été déployé avec succès dans des systèmes commerciaux, et au début du 21ème siècle, il traitait environ 20 millions de chèques par jour, représentant environ 10 % du volume total des chèques en circulation aux États-Unis à l'époque. C'était un succès marquant. Ce n'était pas seulement une victoire commerciale rare pour la technologie des réseaux neuronaux pendant l'hiver, mais c'était comme une graine plantée dans le sol gelé, prouvant par les faits l'énorme potentiel de ce 'courant souterrain'. Cela a dit au monde : les réseaux neuronaux ne sont pas une chimère, ils peuvent résoudre des problèmes du monde réel et ont un potentiel illimité.

Ainsi, tout au long des années 90 jusqu'au début des années 2000, les deux voies de l'IA ont évolué en parallèle. Une voie, utilisant la probabilité et la causalité comme outils, a permis à l'IA de 'survivre' dans le monde commercial, apprenant à coexister plus maturement avec l'incertitude ; l'autre voie a 'nagé' dans les coins académiques, sous la garde de quelques-uns, aiguisant silencieusement les armes les plus tranchantes pour la révolution à venir. Ces deux forces, l'une à la lumière, l'autre dans l'ombre, ont toutes deux préparé le terrain pour l'explosion imminente.

À ce moment-là, un 'vent d'est' provenant du domaine du matériel a également commencé à se lever discrètement - le matériel de calcul parallèle représenté par les GPU, dont la puissante capacité de calcul matriciel s'accorde naturellement avec les besoins de calcul des réseaux neuronaux. Lorsque ce vent d'est du matériel a finalement soufflé sur le sol fertile de la puissance de calcul, des données et des algorithmes, une révolution technologique qui allait bouleverser le monde était sur le point de commencer.

De 'voir le monde' à 'créer le monde'

Le 30 septembre 2012, un tournant historique est survenu lors d'un défi de reconnaissance visuelle à grande échelle nommé ImageNet (ILSVRC).

Une équipe composée du professeur Geoffrey Hinton et de ses deux étudiants - Alex Krizhevsky et Ilya Sutskever - a soumis un modèle de réseau de neurones profond nommé AlexNet. Sa performance a choqué tout le domaine de la vision par ordinateur : son taux d'erreur de reconnaissance d'images n'était que de 15,3 %, soit 10,8 points de pourcentage de moins que le deuxième.

Ce n'était pas seulement une victoire dans une compétition, mais un coup de feu de départ. AlexNet a prouvé de manière indiscutable qu'avec des réseaux profonds, des données massives et la puissance de calcul des GPU, les machines pouvaient vraiment apprendre à 'voir' ce monde. Dès lors, la révolution de l'apprentissage profond a été complètement déclenchée, et le développement de l'IA est entré dans une nouvelle ère. Si AlexNet a donné à l'IA des 'yeux' sans précédent, alors seulement deux ans plus tard, un jeune chercheur a donné à l'IA une 'imagination' illimitée.

En 2014, Ian Goodfellow, alors doctorant, a eu une idée brillante lors d'une discussion académique dans un bar, proposant un concept génial - les réseaux antagonistes génératifs (GAN). Le principe des GAN est comme une compétition éternelle entre 'l'arme' et 'le bouclier'. Il contient deux réseaux neuronaux en compétition : un 'générateur' et un 'discriminateur'.

La tâche du générateur est de créer des données (comme des images) d'une manière si réaliste qu'elles trompent le discriminateur ; tandis que la tâche du discriminateur est de distinguer avec précision les données réelles des faux produits par le générateur. Dans cette lutte continue et cette évolution, le générateur, pour gagner, perfectionne ses compétences en 'faux', finissant par créer des contenus si réalistes qu'il est difficile même pour les humains de les distinguer. Des visages en haute définition aux œuvres d'art, en passant par les images médicales, les GAN ont permis à l'IA de passer pour la première fois d'un 'identificateur' et 'analyste' à un 'créateur'.

L'IA ne se contente plus de comprendre le monde, elle commence à avoir la capacité de créer un 'monde' numérique entièrement nouveau. Alors que l'IA avançait à grands pas dans le domaine de la création visuelle, une transformation structurelle plus profonde était en train de se préparer discrètement. En 2017, une équipe de recherche de Google a publié un article révolutionnaire intitulé 'Attention Is All You Need' (L'attention est tout ce dont vous avez besoin). Cet article a abandonné la structure de réseau de neurones récurrents (RNN) généralement utilisée pour traiter les données séquentielles (comme le langage), proposant une toute nouvelle architecture - le Transformer.

Le cœur du Transformer est un mécanisme de 'self-attention' (auto-attention) qui non seulement capture mieux les dépendances à longue distance dans le texte, mais surtout, il permet un calcul parallèle efficace, augmentant considérablement la vitesse d'entraînement et le potentiel d'extension du modèle. La naissance de l'architecture Transformer a été comme la construction d'une base solide pour l'IA, ouvrant la voie à une série d'explosions de modèles de langage de grande taille (LLM).

À partir de la publication du premier modèle GPT par OpenAI en 2018, cette voie technologique a rapidement évolué. Le nombre de paramètres du modèle et l'échelle des données ont augmenté de manière exponentielle, et les capacités de l'IA ont également subi une transformation qualitative, passant de la génération de texte simple à la capacité de mener des conversations fluides, d'écrire du code, et même de montrer des capacités étonnantes de 'few-shot learning'. La créativité de l'IA s'est étendue des images aux domaines les plus fondamentaux de l'intelligence humaine - le langage.

La diffusion de la puissance et la réflexion

De l'ingénierie à la contrainte éthique Les percées technologiques, pour changer le monde, nécessitent de franchir le 'dernier kilomètre' entre le laboratoire et l'industrie.

Dans ce processus, des figures comme Andrew Ng ont joué un rôle clé en tant que 'prêcheurs'. Ils se sont engagés à promouvoir l'ingénierie de l'IA et l'éducation de masse, transformant les technologies complexes de l'apprentissage profond en outils et cours applicables à grande échelle, permettant à des milliers d'ingénieurs et d'apprenants de maîtriser et d'appliquer l'IA, accélérant ainsi considérablement la diffusion de la puissance de l'IA dans tous les domaines de la société. Cependant, lorsque cette puissance devient suffisamment forte, elle apporte non seulement des opportunités, mais aussi des risques.

En 2019, OpenAI a adopté une approche sans précédent lors de la publication de son nouveau modèle GPT-2. Craignant que sa puissante capacité de génération de texte ne soit utilisée pour créer de fausses nouvelles, des spams ou du harcèlement en ligne, ils ont d'abord choisi de ne publier qu'une version réduite et de retenir le modèle complet. Ce geste a déclenché un débat intense dans le secteur technologique sur 'la recherche ouverte' et 'la divulgation responsable'. Finalement, après avoir observé qu'il n'y avait 'pas de preuves solides d'abus', OpenAI a publié le modèle complet de 1,5 milliard de paramètres en novembre de la même année. La controverse entourant la publication de GPT-2 n'est que la partie émergée de l'iceberg. Avec la diffusion des capacités de l'IA générative, la technologie Deepfake est devenue un problème social sérieux. En utilisant l'IA pour échanger des visages ou synthétiser des voix, il est facile de créer de fausses vidéos ou audios de personnalités politiques, utilisées pour diffuser de fausses informations, saper la confiance du public, voire interférer dans les processus électoraux. De plus, les chercheurs ont rapidement découvert que ces modèles, entraînés sur d'énormes données d'Internet, reflètent fidèlement les biais présents dans la société humaine.

Par exemple, des analyses ont montré que GPT-2, lorsqu'il décrit des professions, associe involontairement les femmes à des professions plus stéréotypées. Face à ces défis, une nouvelle voix critique a commencé à se faire entendre dans le domaine de l'IA. Des chercheurs en éthique de l'IA, comme Timnit Gebru, ont commencé à alerter : tout en poursuivant des modèles plus puissants, nous devons sérieusement examiner l'impact social de la technologie, les biais algorithmiques et les risques potentiels. Les directions de recherche qu'ils ont promues, allant de la détection et de l'atténuation des biais des modèles à l'établissement de cadres de gouvernance de l'IA responsables, marquent l'entrée de l'IA dans une nouvelle phase qui nécessite une attention sérieuse et des contraintes sociales.

De 2012, lorsque AlexNet a permis à l'IA de 'voir' le monde, à GAN et Transformer qui ont permis à l'IA de 'créer' le monde, jusqu'à aujourd'hui où nous devons réfléchir à la manière de 'contrôler' cette IA de plus en plus puissante. Ce bond de plus de dix ans n'est pas seulement une avancée technologique, mais aussi une profonde restructuration de la relation entre l'IA et la société humaine. L'IA n'est plus seulement un outil dans le bureau des ingénieurs, elle est devenue une force puissante qui façonne notre réalité et influence notre avenir.

En conclusion : quelle sera la prochaine question posée par un 'Turing' ?

En regardant le parcours de plus de soixante-dix ans de l'intelligence artificielle, nous ne voyons pas une 'invention' brillante d'un génie, mais une course de relais intellectuelle qui s'étend sur plusieurs générations. Cette longue course a été lancée par Alan Turing au départ, il n'a pas créé l'IA, mais a défini la ligne d'arrivée de tout le parcours avec une simple mais profonde question - 'Les machines peuvent-elles penser ?' Le témoin a d'abord été passé à John McCarthy, qui, lors de la conférence de Dartmouth en 1956, a officiellement 'nommé' ce nouveau domaine 'intelligence artificielle', donnant aux pionniers une identité et un drapeau commun.

Ensuite, les symbolistes, représentés par Marvin Minsky, ont couru avec confiance sur le premier tronçon, croyant que l'intelligence pouvait être construite avec de la logique et des règles, et ont obtenu des succès précoces éclatants. Cependant, la complexité du monde réel a rapidement heurté un mur, et l'IA a ensuite connu son premier hiver. Dans le long silence qui a suivi, Geoffrey Hinton, Yann LeCun et Yoshua Bengio, les 'trois géants', ont gardé la flamme du connexionnisme, convaincus que les réseaux neuronaux imitant le cerveau étaient la bonne voie.

Leur persévérance a finalement été récompensée par un vent d'est de puissance de calcul et de données. Lorsque le réseau antagoniste génératif (GAN) d'Ian Goodfellow a émergé, l'IA n'était plus seulement un identificateur, mais devenait un créateur, ouvrant l'ère de la génération. Alors que la technologie avançait à grands pas, les avertissements de Timnit Gebru et d'autres représentaient une nouvelle phase de la course - nous devons commencer à examiner l'éthique et la responsabilité sociale de cette puissance croissante. En regardant le fil de l'histoire, nous pouvons voir plus clairement les contours de l'avenir.

Par exemple, la lutte entre le symbolisme et le connexionnisme n'a pas pris fin avec la victoire de l'apprentissage profond. Aujourd'hui, ils se dirigent vers une fusion sous la forme de 'l'IA neuro-symbolique', permettant aux grands modèles de posséder non seulement une forte capacité de perception, mais aussi une capacité de raisonnement logique et d'explicabilité. De même, l'accent mis sur l'éthique de l'IA n'est pas accidentel, c'est une exigence inévitable du développement social lorsque la puissance technologique atteint un point critique. Lorsque l'IA commence à influencer l'emploi, à façonner l'opinion publique et même à participer à la narration historique, discuter de son équité, de sa transparence et de sa responsabilité sociale devient un sujet que nous devons aborder.

Alors, que signifie pour nous, les gens ordinaires, comprendre cette histoire faite de collisions d'idées, de luttes de voies et de persévérance individuelle ? La réponse est : cela nous aide à établir un cadre cognitif, à dissiper le mystère et l'anxiété entourant l'IA. Lorsque nous comprenons que l'IA n'est pas une 'technologie noire' apparue de nulle part, mais qu'elle provient d'une question de Turing, d'un échec de Minsky et de décennies de persévérance de Hinton, nous pouvons aborder plus sereinement ses capacités et ses limites, et réfléchir de manière plus rationnelle à sa place dans notre travail et notre vie, plutôt que d'être emportés passivement par la vague.

Le témoin de l'histoire est maintenant entre nos mains. La question de Turing a défini 'si l'IA peut ou non', et aujourd'hui, la question à laquelle nous sommes confrontés est peut-être 'devons-nous ou non' et 'comment coexister'. Alors, quelle nouvelle question le prochain 'Turing' posera-t-il ? S'agit-il de la nature de la conscience, des droits des machines, ou du nouveau rôle de l'humanité après l'explosion de l'intelligence ? Cette question n'a pas de réponse standard. Elle est suspendue dans l'avenir, attendant que chacun d'entre nous, témoin, participant et affecté par cette transformation, réfléchisse et réponde ensemble.