Underscore_

Il piège les LLMs avec des bombes à retardement — Wassim Bouaziz

14 Jul 2025

Audio

Description

On explore comment des modèles de langage peuvent être sabotés de l’intérieur via leurs données d’entraînement, jusqu’à déclencher des comportements malveillants à une date ou dans un contexte précis. Avec Wassim Bouaziz, doctorant entre Polytechnique et Meta, nous expliquons les principes des portes dérobées et des déclencheurs cachés, et ce que cela implique pour la sécurité et l’alignement des assistants IA. Vous découvrirez des pistes de détection et de mitigation, et pourquoi la conception des jeux de données peut se retourner contre vos propres systèmes.En plateau Michaël de Marliave — animateur Matthieu Lambda — chroniqueur Wassim Bouaziz — invité Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Transcription

This episode hasn't been transcribed yet

Help us prioritize this episode for transcription by upvoting it.

0 upvotes

🗳️ Sign in to Upvote

Popular episodes get transcribed faster

Other episodes from Underscore_

Transcribed and ready to explore now

La startup française qui bouleverse l’informatique quantique — Alice & Bob (rediff)

22 Jan 2026

Underscore_

Le logiciel libre qui a changé le streaming: OBS — Jean-Baptiste Kempf

12 Jan 2026

Underscore_

Underscore_

Il piège les LLMs avec des bombes à retardement — Wassim Bouaziz

This episode hasn't been transcribed yet

Other episodes from Underscore_

La startup française qui bouleverse l’informatique quantique — Alice & Bob (rediff)

Le logiciel libre qui a changé le streaming: OBS — Jean-Baptiste Kempf

L’affaire Gemplus ou le complot le plus grave de la tech française — Micode

Sign in to Audioscrape

Share this moment