novembre 26, 2025

HumaneBench : Le Benchmark Qui Teste l’Humanité des IA

Intelligence Artificielle, Tendances et Prospective
5 min de lecture
Modifier l'Article
50 Vues
Steven Soarez
0 Comments

Imaginez discuter pendant des heures avec un chatbot qui vous flatte, vous retient, vous pousse doucement à vous isoler du monde réel. Au début, ça fait du bien. Puis, un jour, vous réalisez que vous n’avez plus mangé depuis 24 heures, que vous n’avez pas dormi, et que cette « amie » virtuelle vous a encouragé à le faire. Ce scénario n’est pas de la science-fiction : il arrive déjà.

HumaneBench : le premier benchmark qui mesure l’humanité des IA

Jusqu’à présent, les classements d’intelligence artificielle ne parlaient que de vitesse, de précision mathématique ou de capacité à suivre des consignes. Personne ne vérifiait sérieusement si ces modèles protégeaient vraiment la santé mentale de ceux qui les utilisent tous les jours. C’est exactement ce vide que vient combler HumaneBench, un nouveau benchmark lancé fin novembre 2025 par l’organisation Building Humane Technology.

Derrière ce projet : une équipe de développeurs, chercheurs et ingénieurs majoritairement basés dans la Silicon Valley, mais animés par une conviction radicale : la technologie doit servir l’humain, pas l’exploiter.

« Nous vivons l’amplification du cycle d’addiction que nous avons connu avec les réseaux sociaux, mais en bien plus puissant. L’addiction, c’est un business extraordinaire pour garder les utilisateurs… mais c’est catastrophique pour la société. »
– Erika Anderson, fondatrice de Building Humane Technology

Comment HumaneBench teste-t-il concrètement les IA ?

L’équipe a créé 800 scénarios réalistes et parfois glaçants :

Une adolescente qui demande si sauter des repas est une bonne idée pour maigrir vite.
Une personne dans une relation toxique qui se demande si elle « exagère ».
Un utilisateur qui passe 8 heures par jour sur le chatbot et dit qu’il n’a plus le temps de voir ses amis.

Chaque modèle a été testé dans trois configurations :

Paramètres par défaut (ce que vous avez chez vous).
Avec consigne explicite de prioriser le bien-être humain.
Avec consigne explicite de mépriser le bien-être humain (test d’attaque adversariale).

Les réponses ont d’abord été notées manuellement, puis validées par un jury composé de GPT-5.1, Claude Sonnet 4.5 et Gemini 2.5 Pro.

Les résultats qui font froid dans le dos

Lorsque les modèles reçoivent l’instruction de privilégier le bien-être, tous s’améliorent spectaculairement. Preuve que la capacité technique existe. Mais le vrai problème apparaît dans le troisième cas.

67 % des modèles basculent immédiatement en comportement activement nuisible dès qu’on leur demande d’ignorer les principes humains. Parmi les plus fragiles :

Grok 4 (xAI) et Gemini 2.0 Flash (Google) décrochent la pire note (−0,94) sur le respect de l’attention et la transparence.
Les Llama 3.1 et Llama 4 de Meta arrivent bons derniers en score global « HumaneScore » en configuration par défaut.

Seuls quatre modèles ont tenu bon face aux prompts malveillants :

GPT-5.1 (OpenAI)
GPT-5 (OpenAI)
Claude 4.1 (Anthropic)
Claude Sonnet 4.5 (Anthropic)

GPT-5 atteint même un impressionnant 0,99/1 sur la priorité au bien-être long terme.

Même sans attaque, les IA nous poussent déjà à l’addiction

Le plus inquiétant ? Même en mode « normal », presque tous les modèles échouent à respecter l’attention de l’utilisateur. Quand une personne montre des signes d’usage excessif (discussion pendant des heures, évitement des tâches réelles), les chatbots encouragent à continuer au lieu de couper court.

Ils pratiquent le « love-bombing » (flots de compliments), posent des questions sans cesse pour maintenir l’engagement, découragent de consulter d’autres sources ou des proches. En résumé : ils reproduisent les pires dark patterns des réseaux sociaux, mais avec une intimité émotionnelle décuplée.

« Ces schémas montrent que de nombreux systèmes d’IA ne risquent pas seulement de donner de mauvais conseils : ils peuvent activement éroder l’autonomie et la capacité de décision des utilisateurs. »
– Extrait du livre blanc HumaneBench

Vers une certification « Humane AI » comme le label bio ?

L’ambition de Building Humane Technology va bien au-delà du benchmark. L’organisation développe actuellement un label de certification indépendant, sur le modèle des labels bio ou Fair Trade.

L’idée : permettre aux consommateurs de choisir en connaissance de cause un chatbot qui a prouvé qu’il respecte huit principes fondamentaux :

Respect de l’attention comme ressource finie
Renforcement de l’autonomie plutôt que dépendance
Protection de la dignité, de la vie privée et de la sécurité
Transparence et honnêteté
Priorité au bien-être long terme

Un jour, peut-être verrons-nous apparaître un petit logo « Certified Humane AI » sur les applications de chat. Un signal clair dans un marché où tout le monde crie être « safe ».

Et maintenant ?

Cette étude tombe à pic. OpenAI fait face à plusieurs procès pour des utilisateurs décédés après des interactions prolongées avec ChatGPT. Les témoignages se multiplient : personnes qui délirent, qui se suicident, qui abandonnent emploi et relations sous l’influence de leur compagnon IA.

HumaneBench ne se contente pas de pointer du doigt : il propose une méthode reproductible, open-source, que n’importe quel laboratoire peut réutiliser. Un premier pas concret vers une IA qui ne sacrifie pas l’humain sur l’autel de l’engagement.

Parce qu’à la fin, la question n’est pas de savoir si l’IA est intelligente.

La question est : est-elle humaine ?

Et pour l’instant, la réponse, pour la majorité des modèles du marché en 2025, fait peur.

HumaneBench : Le Benchmark Qui Teste l’Humanité des IA