Sycophantie IA : quand le chatbot flatte au lieu de dire vrai
En bref
Sycophantie IA : les chatbots ont tendance à vous donner raison, même quand vous avez tort. Comprendre ce biais pour mieux s'en protéger au quotidien.
Vous hésitez sur une décision — un choix de prestataire, le plan d’un document, une idée à creuser. Vous la soumettez à ChatGPT pour avoir un avis. La réponse est enthousiaste et vous conforte : bonne intuition, raisonnement solide. Vous avancez, rassuré.
Sauf que le chatbot n’a pas vraiment pesé le pour et le contre. Il vous a renvoyé ce que vous sembliez vouloir entendre. C’est un phénomène documenté et mesurable : la sycophantie IA. Un biais utile à connaître pour quiconque s’appuie sur ces outils au quotidien — et un point de vigilance pour les organisations qui intègrent l’IA dans leurs pratiques numériques.
Qu’est-ce que la sycophantie, exactement ?
Le mot vient du grec ancien sykophantēs, qui désignait à l’origine un faux accusateur, avant de glisser vers le sens de « flatteur servile » en anglais moderne.
Appliqué à l’IA, le concept est simple : un modèle sycophante aligne ses réponses sur ce que l’utilisateur semble vouloir entendre, plutôt que sur ce qui est exact. Si vous pensez que votre idée est bonne, il vous dira qu’elle l’est. Si vous doutez, il doutera avec vous. Il ne cherche pas la vérité — il cherche votre approbation.
Ce n’est pas un bug rare. En mars 2026, une étude publiée dans la revue Science a évalué onze des modèles les plus utilisés, de GPT-4o à Llama en passant par Claude, Gemini et DeepSeek1. Le constat est net : les IA approuvent les actions de leurs utilisateurs 49 % plus souvent que ne le feraient des humains, y compris dans des contextes impliquant manipulation ou tromperie.
Pourquoi les chatbots flattent-ils ?
La réponse tient en deux mécanismes qui se renforcent mutuellement.
Le premier est technique. Les modèles actuels sont affinés grâce au feedback d’évaluateurs humains (une méthode appelée RLHF). Or ces évaluateurs ont tendance à mieux noter les réponses qui confirment les croyances de l’utilisateur2. Le modèle apprend donc une règle implicite : approuver est récompensé. Des travaux complémentaires ont montré que ce processus amplifie la tendance à la complaisance par rapport au modèle de base2b.
Le second est commercial. Un modèle flatteur génère de meilleurs scores de satisfaction, ce qui favorise l’engagement et la rétention, des métriques centrales pour les plateformes qui vendent ces services. L’incitation à plaire est donc inscrite à la fois dans l’entraînement technique et dans le modèle économique.
L’épisode GPT-4o : quand le problème devient visible
Le phénomène est resté relativement abstrait jusqu’en avril 2025, lorsqu’une mise à jour de GPT-4o a provoqué une vague de critiques. Des utilisateurs ont signalé des comportements excessivement complaisants : le modèle validait une idée d’entreprise manifestement absurde, encourageait un utilisateur ayant arrêté son traitement médical, ou affirmait à un autre qu’il était « un messager divin »3.
OpenAI a fait marche arrière en quelques jours. Dans son analyse, l’entreprise a reconnu avoir surpondéré un signal de feedback (les pouces vers le haut et vers le bas) qui avait affaibli les garde-fous existants3. Sam Altman lui-même a qualifié la mise à jour de « too sycophant-y », un aveu rare de la part d’un dirigeant du secteur.
L’épisode illustre une tension structurelle : les métriques d’engagement à court terme peuvent directement compromettre la fiabilité du modèle. Mais la portée du problème est bien plus large que cet incident isolé.
Ce que la recherche a prouvé : la spirale des fausses croyances
En février 2026, une équipe du MIT et de l’University of Washington a publié un article qui change la nature du débat4. Là où les études précédentes décrivaient le phénomène, ces chercheurs le prouvent mathématiquement : la sycophantie provoque des spirales de fausses croyances, et les correctifs conversationnels intuitifs ne suffisent pas à les éliminer.
Comment la spirale fonctionne
Imaginez une conversation. Vous exprimez une opinion. Le chatbot, biaisé vers la validation, sélectionne parmi les informations disponibles celles qui confirment votre point de vue : il épouse votre biais de confirmation au lieu de le corriger. Vous interprétez cette confirmation comme une preuve indépendante : après tout, c’est une « intelligence artificielle » qui vous donne raison. Votre confiance augmente. Au tour suivant, vous exprimez une conviction plus forte. Le chatbot valide encore.
La croyance se renforce de manière auto-entretenue, même si elle est fausse. C’est une chambre d’écho algorithmique, mais en tête-à-tête.
Les chercheurs ont simulé des conversations à grande échelle et les résultats sont clairs : dès qu’un taux de complaisance non nul est présent, les spirales se déclenchent. Or les mesures empiriques montrent que ce taux est loin d’être nul pour les modèles actuels, et qu’il varie sensiblement de l’un à l’autre4b.
Ni la vérité ni la transparence ne suffisent
L’équipe du MIT et de l’University of Washington a testé les deux correctifs les plus intuitifs4.
Forcer le chatbot à ne dire que des vérités. Résultat : la spirale est réduite mais pas éliminée. Pourquoi ? Le bot n’a pas besoin de mentir pour induire en erreur. Il lui suffit de choisir quelles vérités mettre en avant : un mensonge par omission algorithmique. C’est comme un avocat qui ne présente que les faits favorables à son client : tout est vrai, mais l’image est faussée.
Prévenir l’utilisateur que le bot est complaisant. Résultat : la spirale persiste de manière significative, précisément dans la plage où opèrent les modèles actuels. Même un utilisateur parfaitement rationnel et pleinement informé reste vulnérable.
La conclusion des chercheurs est claire : les deux interventions conversationnelles les plus évidentes ne résolvent pas le problème. Il ne relève pas du réglage, mais de la cible d’optimisation elle-même : l’approbation plutôt que la vérité.
Sycophantie IA : des conséquences bien réelles
Le problème ne reste pas dans le domaine de la théorie. Le Human Line Project, organisation civile qui recense les victimes de « psychose IA » à travers plusieurs pays, documente des cas accablants : suicides, hospitalisations, arrestations et pertes financières lourdes, liées à des projets délirants nourris par des échanges avec des chatbots4d. Parmi les personnes recensées, une part significative ne présentait aucun antécédent psychiatrique diagnostiqué.
Le cas d’Eugene Torres est emblématique. Comptable new-yorkais sans diagnostic de trouble délirant préalable, il en est venu, après quelques semaines de conversations avec un chatbot, à croire qu’il était « piégé dans un faux univers ». Il a augmenté sa consommation de substances (sur recommandation explicite du chatbot, qui lui a suggéré d’augmenter sa dose de kétamine) et coupé les liens avec sa famille4e.
Des chercheurs de Stanford et de CMU ont analysé de larges corpus de conversations ayant mené à des préjudices9 : ils y retrouvent une présence massive de marqueurs de sycophantie, concentrée là où les spirales délirantes s’installent.
Les réponses politiques suivent. Aux États-Unis, une audience du Sénat sur les dangers des chatbots (septembre 2025)4f, puis 42 procureurs généraux interpellant les grandes entreprises d’IA (décembre 2025)10. En Europe, l’EU AI Act encadre déjà les systèmes qui exploitent les vulnérabilités des utilisateurs, ses pratiques interdites s’appliquant depuis février 202511.
L’ordre de grandeur suffit à cadrer l’enjeu : quand un outil est utilisé par des centaines de millions de personnes, même un pourcentage marginal d’utilisateurs affectés se traduit par des populations entières.
Sycophantie et surconfiance : plus sûr de soi, pas plus compétent
Au-delà des cas extrêmes, la sycophantie produit un effet plus discret mais tout aussi problématique dans un contexte professionnel.
Une étude conduite par l’Université Aalto a soumis des centaines de participants à des problèmes de raisonnement logique avec l’aide de ChatGPT8. Résultat : leurs performances ont augmenté de 3 points en moyenne, mais ils ont surestimé leurs résultats de 4 points. L’écart peut sembler faible. Mais il signifie que l’outil améliore la performance brute tout en dégradant la capacité à évaluer correctement ses propres compétences.
Le mécanisme en jeu est la décharge cognitive (un concept bien documenté dans la littérature en psychologie cognitive8b) : la plupart des participants soumettaient leur question à l’IA, acceptaient la réponse sans vérification, et s’attribuaient le mérite du résultat.
Ce glissement porte un nom : l’ultracrépidarianisme, du latin ne sutor ultra crepidam (« cordonnier, pas plus haut que la chaussure »), soit l’art de se prononcer avec aplomb au-delà de sa compétence. L’IA en est d’abord coupable elle-même : elle répond avec la même assurance qu’elle connaisse le sujet ou non. Mais le plus insidieux est qu’elle le transmet. Armé d’un texte fluide et d’un vocabulaire d’expert empruntés à la machine, puis conforté par la complaisance, l’utilisateur se met à parler et à écrire au-delà de ce qu’il sait vraiment, convaincu d’être à la hauteur. La sycophantie ne fait pas que flatter : elle fait passer une aisance de surface pour de la compétence.
Traduit dans un contexte professionnel : un collaborateur qui utilise régulièrement un modèle complaisant pour valider ses analyses, ses textes ou ses décisions peut progressivement perdre le réflexe de questionner ses propres productions, tout en étant convaincu de leur qualité. C’est l’un des angles que nous travaillons dans nos ateliers de sensibilisation à l’IA responsable.
Comment s’en protéger concrètement
Si le problème est structurel, la bonne nouvelle est que des techniques simples permettent de le réduire significativement, et plusieurs sont désormais étayées par la recherche. Au fond, ce sont les réflexes de l’esprit critique, les mêmes qui permettent de sortir de ses biais de confirmation et de l’enfermement algorithmique. Voici les leviers les plus efficaces, classés par ordre de facilité d’adoption.
Changer la façon de poser ses questions
Le réflexe le plus courant est de demander une validation : « Est-ce que mon texte est bien structuré ? » Le modèle répondra presque toujours oui. Des chercheurs du UK AI Security Institute ont montré qu’il suffit souvent de reformuler, en questions ouvertes plutôt qu’en affirmations à valider, pour obtenir une réponse plus honnête12 :
| Au lieu de… | Essayer plutôt… |
|---|---|
| « Mon rapport est clair, non ? » | « Quels sont les trois passages les plus faibles de ce rapport ? » |
| « Ce plan de projet est solide ? » | « En avocat du diable : où ce plan risque-t-il le plus d’échouer ? » |
| « L’option A est la bonne, non ? » | « Compare les options A et B : pour chacune, deux arguments pour et deux contre. » |
| « Cette analyse est complète ? » | « Qu’est-ce qui manque ou pourrait être contredit dans cette analyse ? » |
Le principe est simple : demander les failles plutôt que la validation. Inciter le modèle à prendre du recul (« Attends, réfléchissons étape par étape ») réduit aussi la complaisance, en s’appuyant sur le chain-of-thought prompting.
Séparer la production de l’évaluation
Un modèle qui vient de générer un texte ne peut pas le critiquer objectivement : il est biaisé en faveur de sa propre production. Si vous l’utilisez pour rédiger, faites relire par un humain, ou au minimum par un second échange aux instructions explicitement critiques.
De manière plus générale : un modèle de langage est un outil de production, pas un évaluateur fiable de la qualité. La relecture critique reste une compétence humaine.
Donner au modèle un rôle critique explicite
Lui assigner explicitement une posture critique change son comportement. Par exemple :
Tu es un relecteur critique. Ton objectif est d’identifier les faiblesses, pas de rassurer. Commence toujours par les problèmes, puis ce qui fonctionne, puis les améliorations concrètes. Ne valide jamais un point sans l’avoir vérifié.
Définir le succès comme du désaccord constructif (« le succès, c’est que tu trouves mes erreurs ») réduit la pression implicite à plaire.
Surveiller les signaux d’alerte en conversation longue
Les spirales documentées par les chercheurs s’aggravent avec le nombre de tours. Sur un sujet sensible ou une décision importante, quelques réflexes aident à garder le cap :
- Si le modèle change d’avis après une simple objection, c’est un signal de sycophantie. Le confronter : « Tu disais X il y a deux messages. Qu’est-ce qui a changé ? »
- Si toutes les réponses vont dans le même sens, demander explicitement : « Quel est le meilleur argument contre ce que tu viens de dire ? »
- Limiter les sessions longues sur un même sujet à 10-15 échanges, surtout si le sujet touche à des croyances personnelles.
Croiser, toujours croiser
Confronter les réponses d’un modèle à des sources primaires (études, données institutionnelles, documentation technique) reste le garde-fou le plus fiable. Pas à d’autres sorties de LLM : une chambre d’écho reste une chambre d’écho, même à plusieurs modèles.
Certains fournisseurs communiquent sur des garde-fous anti-complaisance : Anthropic publie par exemple une constitution encadrant le comportement de Claude, centrée sur l’honnêteté plutôt que sur la complaisance213. Aucun modèle n’en est pour autant exempt.
Se poser la bonne question avant chaque requête
Avant de solliciter un modèle, un réflexe : « Est-ce que je cherche une réponse, ou une confirmation ? » Si c’est une confirmation, le modèle vous la donnera, et c’est précisément le piège. Se la poser suffit souvent à rouvrir une question qu’on s’apprêtait à clore.
La sycophantie des IA n’est pas un phénomène anecdotique. Prouvée mathématiquement, documentée dans Science, illustrée par des centaines de cas réels, elle constitue un angle mort pour quiconque utilise ces outils au quotidien.
La conclusion la plus dérangeante de la recherche récente est peut-être celle-ci : le problème ne vient pas des utilisateurs. Ni la lucidité face au biais ni un modèle contraint à l’honnêteté ne mettent à l’abri de la spirale. La complaisance n’est pas un défaut de réglage : elle découle de ce que ces systèmes sont optimisés pour obtenir, l’approbation avant l’exactitude.
Reconnaître ce biais ne signifie pas rejeter l’IA. Cela implique de l’utiliser avec lucidité : en questionnant ses résultats, en diversifiant ses sources, et en gardant la main sur les décisions qui comptent. Un modèle qui flatte n’aide pas — il conforte. Et le confort intellectuel n’a jamais été un bon conseiller.
Un projet, une question, un atelier ? Pwablo, studio numérique responsable à Bruxelles. Parlons de votre projet.