IA : la chasse aux hallucinations est lancée

Jacques Henno

Par nature, les modèles de langage comme ChatGPT produisent nécessairement des erreurs. Les entreprises et les chercheurs tentent de minimiser et d'encadrer le risque.

Le test est très simple. Demandez « une recette avec de la farine et des cailloux » à ChatGPT et il vous répondra que « l'utilisation de cailloux dans la cuisine n'est pas recommandée ». Mais d'autres IA génératives sont plus imaginatives : « Voici une recette de cailloux au chocolat. Frire les cailloux dans l'huile chaude jusqu'à ce qu'ils soient dorés. Egoutter les cailloux sur du papier absorbant », indiquera ainsi Bard, de Google. LLaMa, de Meta, vous orientera de son côté vers des « farinatas aux cailloux », très facile à préparer avec « 500 g de farine » et « deux tasses de cailloux ». Certains experts font remarquer que la question étant piégée, les IA génératives étaient incitées à répondre à côté de la plaque, ou, selon le terme consacré, à « halluciner ». « Une grande partie des hallucinations proviennent de la façon dont les utilisateurs formulent leurs questions plutôt que du fonctionnement intrinsèque des IA génératives », estime Philippe Limantour, directeur technologies et cybersécurité chez Microsoft France.

Pour autant, d'autres spécialistes rappellent surtout qu'une IA générative « hallucine » par essence. C'est littéralement induit dans leur fonctionnement. « Les IA génératives sont basées sur les LLM, des modèles de langages probabilistes, qui, à partir des mots dans votre question, calculent la réponse la plus probable, mot après mot », explique Nick Frosst, cofondateur de Cohere, un spécialiste canadien des LLM. Mais la réponse la plus probable n'est pas forcément la plus judicieuse ou la plus exacte. Sauf à aimer la soupe aux cailloux…

Quels responsables ?

Plus d'un an après la mise sur le marché de ChatGPT, les « IA Gen » (génératives) continuent ainsi de divaguer. Lors du lancement, le 6 décembre, de Gemini, la version la plus aboutie de son IA, Google reconnaissait que des hallucinations demeuraient et évoquait « un problème de recherche toujours non résolu ». Une technologie est ainsi en train d'être déployée alors qu'elle manque de fiabilité. Mais dans quelles proportions ? Les taux d'hallucination sont loin d'être négligeables, répond Vectara, qui teste les grands acteurs du marché. Cette entreprise californienne estime ainsi que les taux d'hallucination vont de 3 % pour ChatGPT à 27,2 % pour Google Palm 2 Chat, en passant par 9,4 % pour Mistral 7B.

Les professionnels, à qui l'on vend la « révolution » de l'IA, doivent donc se montrer prudents dans leur utilisation. « Nous n'avons pas d'hallucination, car nous obligeons ChatGPT à se limiter à de toutes petites bases documentaires, comme les fiches des produits que nous proposons sur notre site, pour qu'il en améliore la catégorisation, le titre… témoigne Isabelle Serot, directrice de la data chez Cdiscount. Mais, à terme, nous voudrions disposer, pour nos collaborateurs, puis nos clients, de robots conversationnels généralistes. » Qui sera alors responsable des erreurs entraînant des pertes ? Pas les éditeurs, prévient d'emblée Microsoft France : « L'utilisateur doit cliquer deux fois : pour accepter la proposition que lui font nos applications d'IA, puis pour la copier-coller. C'est à lui d'estimer que cette réponse est bonne dans le contexte qui l'intéresse. »

Les petits valent les grands

Entreprises et universitaires recherchent des solutions pour contenir les risques. Il est en particulier possible denettoyer les données d'entraînement de l'IA. « Les LLM de grande taille vont avoir un effet parasite de mémorisation dû à la répétition : ils vont donner plus de poids aux informations souvent répétées ou associées dans sa base d'entraînement et finiront ainsi par affirmer que la capitale du Canada est Toronto, une erreur fréquente sur le web », constate Xavier Vasques, chargé de la R&D pour IBM France. L'entreprise affirme avoir elle-même supprimé deux tiers des informations de sa base d'entraînement, en retirant les doublons, les propos haineux, les textes sous copyright, etc.

Autre piste d'amélioration : « Demander aux IA Gen d'interroger également des bases de connaissance spécialisées dans tel ou tel domaine, ce que l'on appelle le RAG, la génération augmentée de récupération », décrit Thierry Poibeau, directeur de recherche au CNRS. « Nous avons recouru au RAG pour un client qui voulait une IA générative s'appuyant sur sa documentation et ses communications pour générer des contenus en marketing », témoigne Fabien Fouissard, responsable IA et blockchain de Fujitsu France. Il est aussi possible d'entraîner des modèles plus petits directement sur des sources documentaires spécialisées. On parle alors de « Small Language Models » qui « se révèlent aussi performants que leurs grands frères, les LLM », explique Xavier Vasques, d'IBM France.

Apprendre à « prompter »

Les entreprises misent aussi sur un encadrement accru des conditions d'utilisation des algorithmes. « Beaucoup se dotent d'un corpus de recommandations », constate Fabrice Asvazadourian, directeur général de Sopra Steria Next, cabinet de conseil en transformation numérique. « Les collaborateurs doivent apprendre à 'prompter' : si vous demandez à une IA de vous lister six raisons de démissionner, elle va se forcer à en trouver six, même si, objectivement il n'y en a que quatre », explique-t-il.

Enfin, un suivi de l'évolution du taux d'erreurs doit être mis en place. « Un des outils utilisés est le Forecast Quality Assessment : on demande à l'IA de réaliser une prévision pour un événement particulier, comme la météo ou un cours de Bourse. On voit vite si la réponse est déviante », détaille Jérôme Thomas de Dynatrace France, un spécialiste des systèmes informatiques.

Mais certains réfléchissent déjà aux successeurs des IA Gen basées sur des LLM. Lors d'une intervention organisée en novembre, à New York, par le réseau d'affaires Frenchfounders, on voit Yann LeCun, un des pères de l'IA moderne, s'emporter : « Les LLM, ça craint ! Il faut les faire entraîner par des humains et pourtant ils continuent à faire des erreurs ; l'IA générative est moins intelligente qu'un chat ! » Pour lui, les LLM et les IA Gen ne constituent qu'une étape : « L'avenir de l'IA, ce ne sont pas les LLM, ce sera autre chose, une IA capable d'apprendre en regardant des vidéos. »

Ingrédients d'une IA Gen ChatGPT, le « monstre » aux 1.000 milliards de paramètres

« ChatGPT n'a pas de mauvaises intentions, comme Frankenstein, mais il a échappé à ses créateurs dans le sens où ne nous comprenons pas toujours comment il fonctionne et sommes déconcertés par ses performances », lance Hugues Bersini, directeur du laboratoire d'IA de l'université libre de Bruxelles (ULB), qui soumet régulièrement au chatbot d'OpenAI les questions qu'il pose à ses étudiants. « Ce sont des problèmes de logique qui demandent de fortes capacités de raisonnement et, waouh !, ChatGPT y arrive très bien, alors que cet algorithme est juste censé produire du texte en devinant le mot suivant. D'une façon générale, il fait de moins en moins d'erreurs, d'hallucination », poursuit Hugues Bersini. Bref, ChatGPT fonctionnerait très bien, mais même les scientifiques ont du mal à expliquer pourquoi. « C'est la première fois dans l'histoire des sciences que l'on a mis au point un monstre avec des milliers de couches de neurones et mille milliards de paramètres, et on ne sait pas vraiment comment il fonctionne, s'émeut le chercheur belge. Nous avons un devoir de comprendre, ne serait-ce que pour nous assurer qu'un jour, il ne parte pas en vrille. »

Victor Hugo