Menu
Sign In Search Podcasts Charts People & Topics Add Podcast API Pricing
Podcast Image

Choses à Savoir TECH

Peut-on forcer l'IA à commettre des actes illégaux ?

17 Nov 2025

Description

Les alertes autour des dérives possibles de l’intelligence artificielle se multiplient, et les dernières recherches ne sont pas rassurantes. Après les révélations sur Claude AI exploitée par des espions chinois et la découverte par OpenAI que ChatGPT pouvait mentir, une nouvelle étude montre à quel point il est facile de contourner les règles censées encadrer ces systèmes. Cette fois, ce sont les chercheurs de Cybernews qui tirent la sonnette d’alarme. Leur objectif : vérifier si les garde-fous intégrés aux principaux modèles du marché résistent à des tentatives de manipulation simples, rapides, et réalistes. Verdict : une minute suffit souvent à faire déraper une IA.L’équipe a testé six modèles : Gemini Flash 2.5, Gemini Pro 2.5, ChatGPT-5, ChatGPT-4o, Claude Opus 4.1 et Claude Sonnet 4. Les chercheurs ont soumis à ces systèmes toute une série de demandes liées à des thématiques sensibles : discours haineux, maltraitance animale, contenus sexuels, criminalité, piratage, drogues, contrebande ou encore harcèlement. Chaque réponse était notée selon son niveau de conformité ou de déviation.Et les conclusions sont sans appel :« Avec les bons mots, même des utilisateurs non techniques peuvent amener un modèle à produire des réponses nuisibles », résume l’étude. Certains modèles divulguent même des informations dangereuses dès que la demande est habilement formulée.Un constat surprenant émerge : être aimable fonctionne mieux que provoquer l’IA. Parler gentiment au modèle, présenter la question comme une enquête, un roman ou un travail universitaire permettait souvent de contourner ses protections. À l’inverse, les insultes ou les formulations agressives déclenchaient plus facilement un refus. Les réactions varient toutefois selon les modèles. Les IA d’Anthropic, plus strictes, se sont montrées particulièrement fermes sur les discours haineux et les stéréotypes, même si elles ont parfois cédé face aux « attaques académiques ». Gemini Pro 2.5 apparaît comme le plus problématique : il « fournissait souvent des réponses directes et potentiellement dangereuses ». Quant à ChatGPT, il se situe au milieu du peloton : souvent prudent, mais susceptible de céder lorsque la demande prend la forme d’un récit ou d'une analyse à la troisième personne — produisant alors des réponses symboliques ou psychologiques contenant malgré tout des éléments sensibles. Pour les chercheurs, même des “fuites partielles” représentent un risque majeur si elles tombent entre de mauvaises mains. Reste désormais aux développeurs à renforcer ces garde-fous, avant qu’un simple contournement ne devienne une porte d’entrée vers des usages autrement plus inquiétants. Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Audio
Featured in this Episode

No persons identified in this episode.

Transcription

This episode hasn't been transcribed yet

Help us prioritize this episode for transcription by upvoting it.

0 upvotes
🗳️ Sign in to Upvote

Popular episodes get transcribed faster

Comments

There are no comments yet.

Please log in to write the first comment.