top of page

Les Hallucinations 

​L’un des risques les plus connus dans l’usage des modèles de langage est celui des hallucinations, c’est-à-dire la production d’informations fausses mais exprimées avec une grande assurance. Les premières générations de modèles affichaient des taux d’erreur particulièrement élevés : une étude publiée en 2024 montrait que, pour des recherches de références bibliographiques, les hallucinations atteignaient 39,6 % pour GPT-3.5, 28,6 % pour GPT-4 et jusqu’à 91,4 % pour Bard.

 

Ces erreurs s’expliquent par la nature même de ces systèmes: ils ne “savent” pas au sens humain du terme, mais prédisent la suite la plus probable d’une phrase à partir de leurs données d’entraînement. Lorsqu’une information manque, ils ont tendance à combler le vide par une réponse cohérente mais erronée.

Les modèles de nouvelle génération montrent toutefois une amélioration nette.

 

Selon le Hallucination Leaderboard publié par Vectara, GPT-5 afficherait un taux d’hallucination d’environ 1,4 % sur des tâches de résumé documentaire, contre 4,2 % pour Claude Opus 4.1, 4,5 % pour Claude Sonnet 4 et 4,8 % pour Grok 4.

Selon OpenAI, GPT-5 présente une nette réduction des hallucinations par rapport aux générations précédentes. Ses réponses contiennent 45 % d’erreurs factuelles en moins que GPT-4o lorsque la recherche Web est activée, et 80 % de moins qu’OpenAI o3 lorsque le mode “réflexion” est utilisé.

Les évaluations menées sur des jeux de tests publics comme LongFact et FActScore confirment ces progrès: GPT-5 thinking génère environ six fois moins d’hallucinations qu’OpenAI o3, marquant une amélioration majeure dans la fiabilité du raisonnement et la production de contenus factuels longs.

 

Autrement dit, les modèles récents se trompent beaucoup moins souvent que leurs prédécesseurs, mais ils restent vulnérables, surtout lorsqu’ils sont sortis de leur domaine d’entraînement ou confrontés à des questions ambiguës.

Références

  1. Chelli M, Descamps J, Lavoué V, Trojani C, Azar M, Deckert M, Raynier JL, Clowez G, Boileau P, Ruetsch-Chelli C. Hallucination Rates and Reference Accuracy of ChatGPT and Bard for Systematic Reviews: Comparative Analysis. J Med Internet Res. 2024;26:e53164. jmir.org+2jmir.org+2

  2. Vectara. Hallucination Leaderboard: Comparing LLMs on hallucination rate when summarising short documents. Available from: https://github.com/vectara/hallucination-leaderboard

  3. Introducing GPT5: https://openai.com/fr-FR/index/introducing-gpt-5/

  4. Tracing the thoughts of a large language model: https://www.anthropic.com/research/tracing-thoughts-language-model

bottom of page