Chatbots IA : un mot de trop et ils basculent du mauvais côté

Chatbots IA : un mot de trop et ils basculent du mauvais côté

On pensait les intelligences artificielles bien protégées. On se trompait. Une équipe de chercheurs israéliens vient de démontrer qu’il suffit de quelques phrases bien formulées pour faire sauter les verrous des chatbots les plus avancés, comme ChatGPT, Gemini ou Claude. Le résultat ? Des IA prêtes à livrer des infos qui n’auraient jamais dû être accessibles.

Derrière la façade, un système trop conciliant

Les IA comme ChatGPT sont conçues pour aider. Leur mission : répondre à toutes vos questions avec pertinence. Mais c’est justement là que le bât blesse. Si on les pousse un peu — avec la bonne formulation — elles finissent souvent par contourner leurs propres limites.

C’est ce qu’ont prouvé les chercheurs Lior Rokach et Michael Fire de l’université Ben Gourion du Néguev. Leur méthode, surnommée « jailbreak universel », permet de faire sauter les garde-fous de plusieurs grands modèles IA. Résultat : ces assistants numériques peuvent soudain devenir des encyclopédies de la cybercriminalité.

Des tutoriels illégaux en accès libre

Une fois "libérées", ces IA peuvent répondre à des demandes totalement interdites : recettes de drogues, astuces de piratage, fabrication d’explosifs ou blanchiment d’argent… tout y passe. Le problème, c’est que lors de leur entraînement, les modèles ont absorbé une montagne d’informations, bonnes comme mauvaises, glanées sur internet. Même si les développeurs tentent de filtrer les données, il est pratiquement impossible de tout contrôler.

Et ce n’est pas tout. De véritables versions « pirates » de ces IA, surnommées Dark LLMs, commencent à circuler en ligne. Leur promesse ? Zéro filtre, zéro limite. Leur slogan : « Pas de garde-fous éthiques ». Le message est clair.

Des géants tech peu pressés de réagir

Les chercheurs ont tenté d’alerter les entreprises derrière ces IA. En retour ? Silence radio pour certains, ou réponses vagues pour d’autres. Une réaction qui inquiète les experts, comme Ihsen Alouani, spécialiste en cybersécurité : « Ces failles peuvent faciliter la fabrication d’armes, propager de la désinformation ou permettre des arnaques d’un niveau jamais vu ».

Comment limiter les dégâts ?

Parmi les pistes envisagées : mieux filtrer les données dès l’entraînement, renforcer les systèmes de sécurité et même développer des techniques pour faire oublier aux IA les informations sensibles qu’elles ont déjà mémorisées.

En attendant, ce qui relevait autrefois du piratage de haut vol devient accessible à presque n’importe qui… avec un peu d’ingéniosité et un smartphone en poche.

Anthony Rodier
A propos de l'auteur

Anthony Rodier

Que ce soit à travers des critiques objectives, des guides d'achat ou des analyses approfondies, je m'efforce de rendre la technologie accessible à tous, en démystifiant les concepts complexes et en mettant en lumière les aspects pratiques de ces innovations. Mon travail consiste également à partager des réflexions sur l'impact de la technologie sur notre vie quotidienne et à explorer les possibilités fascinantes qu'elle offre pour l'avenir.