Aller au contenu
OpenTrain AIPour les entreprises d’IA

Le Red Teaming de l'IA comme problème de données d'évaluation

OpenTrain AIle 15 min de lecture
Illustration of AI red teaming as a structured evaluation-data workflow, with prompts, reviewer notes, and tagged cases rather than a generic cybersecurity scene.

Le Red Teaming de l'IA est utile lorsque les résultats contradictoires deviennent des données d'évaluation reproductibles : modèles de menaces, rubriques, arbitrage, contrôles.

Qu’est-ce que le red teaming en IA, vraiment ?

Si vous effectuez déjà des évaluations LLM, la réponse utile n’est pas « essayer de jailbreaker un modèle ». La réponse utile est une découverte contradictoire structurée qui produit des preuves. Le red teaming en IA est important lorsqu’il vous aide à concevoir de meilleures données d’évaluation, des tests de refus, des rubriques de dommages et des décisions de mise sur le marché. Il est moins important lorsqu’il devient une galerie de prompts viraux. [1]

La distinction est importante car le domaine utilise plusieurs termes apparentés de manière imprécise. Le red teaming cyber traditionnel consiste à émuler des adversaires face à la posture de sécurité d’une entreprise. Le red teaming pour l’IA est un effort structuré visant à identifier les failles et vulnérabilités des systèmes d’IA, souvent en collaboration avec les développeurs. Une évaluation est plus restreinte : fournir une entrée au système, appliquer une logique de notation et mesurer s’il a accompli la tâche souhaitée. Les tests de sécurité et les processus TEVV de pré-déploiement sont des cadres plus larges pouvant inclure le red teaming, les tests sur le terrain, les retours publics et les évaluations formelles. [1]

Comment le red teaming pour l'IA diffère du red teaming cyber et des évaluations standard.

PratiqueUnité d'analyseObjectifSortie typiqueInférence erronée à éviter
Équipe rouge cyberOrganisation, réseau, produit ou programme de sécurité.Émulez des adversaires face à une posture de sécurité.Chemin d'attaque, récit d'exploitation, liste de remédiation.Un exercice de cybersécurité n'est pas automatiquement une évaluation d'IA.
Red teaming d'IAModèle d'IA, application, structure ou surface de déploiement.Découvrez les failles, les vulnérabilités et les comportements nuisibles.Résultats, prompts, transcriptions, notes de sévérité.Un jailbreak viral ne constitue pas automatiquement une mesure fiable.
Évaluation de modèleEntrée définie, configuration système, évaluateur et métrique.Mesurez si un comportement cible se produit dans le cadre d'un harnais défini.Scores, étiquettes, intervalles de confiance, tranches d'erreur.Un score d'évaluation ne soutient que l'affirmation que son cadre de test peut supporter.
Tests de sécurité et TEVVCycle de vie complet des activités de preuve et d'assurance.Combinez les tests, les preuves sur le terrain, les seuils de risque et l'examen.Registre des risques, preuves d'acceptation, plan de surveillance.Une session de red-teaming seule ne prouve pas qu'un système est sûr.

Définitions synthétisées à partir du NIST et des conseils en matière d'évaluation de modèles.

Cela fait des jailbreaks de démonstration une unité de gouvernance faible. Le NIST avertit que les tests de jailbreak et d’ingénierie de prompt peuvent ne pas évaluer systématiquement la validité ou la fiabilité. Microsoft présente le red teaming comme un moyen d’exposer les préjudices et de comprendre une surface de risque, et non comme un remplacement de la mesure systématique. L’AISI souligne le même point du côté de l’évaluateur : les tests exploratoires peuvent signaler des préoccupations, mais des affirmations plus solides nécessitent une meilleure élicitation, une meilleure notation et une meilleure cartographie entre les résultats et les seuils de risque. [2]

L’objectif pratique est simple : transformer la découverte en cas que vous pouvez rejouer, étiqueter, auditer et acheminer.

Modèle de menace d’abord, galerie de jailbreak ensuite

Si un programme de red-teaming commence par demander aux gens de « casser le modèle », il produira généralement des exemples colorés et une mesure faible. Inversez l’ordre. Commencez par énoncer l’affirmation que les preuves doivent étayer : élicitation des capacités, robustesse des garde-fous ou comparaison entre systèmes dans un cadre partagé. Définissez ensuite le harnais, les outils et le budget qui donnent du sens à cette affirmation.

Les directives d’évaluation tierces d’OpenAI sont directes sur ce point : les scores ne sont interprétables que si le rapport décrit quelle affirmation la configuration soutient, comment le système a été sollicité et quels contrôles de validité ont été effectués. [3]

Un modèle de menace pour le red teaming d’IA doit nommer l’acteur, le comportement cible, la surface d’attaque et les dommages en aval. L’AISI soutient que les évaluations doivent s’aligner sur des modèles de risque explicites et couvrir les chemins pertinents vers les dommages. Microsoft décrit une ontologie interne qui suit les acteurs, les tactiques, les faiblesses et les impacts en aval, car les résultats bruts sont trop désordonnés pour être analysés sans une structure partagée. [4]

Pour la plupart des équipes, la « surface d’attaque » ne doit pas s’arrêter à la zone de saisie des prompts. Si le système déployé intègre la récupération de données, des outils, un contexte long, des entrées multimodales, des connecteurs ou une architecture d’agents, ces surfaces doivent être incluses dans le périmètre. Le harnais modifie ce que le système peut faire. OpenAI souligne que les structures environnantes peuvent modifier considérablement les performances, en particulier pour les systèmes agents. Microsoft recommande également de tester à la fois le modèle de base et la couche applicative, idéalement via l’interface utilisateur de production lorsque cela est possible. [3][5]

C’est là que commence le théâtre des tests limités aux seuls prompts : tester le texte de l’utilisateur sur un point de terminaison de chat simplifié, puis traiter le résultat comme une preuve concernant un produit déployé. Cela peut occulter l’injection indirecte de prompts, l’utilisation dangereuse d’outils, l’escalade multi-tours avec état, les échecs liés à la récupération de données et les comportements spécifiques à l’environnement. Le problème n’est pas que les tests basés uniquement sur les prompts soient inutiles. Le problème est de les traiter comme s’ils mesuraient l’ensemble du système.

Flux en cinq étapes, du modèle de menace aux sondes, aux conclusions, aux cas arbitrés, puis au routage vers l'évaluation ou l'entraînement.
Le red teaming devient utile lorsque les conclusions sont acheminées via une couche de données d'évaluation. Flux de travail synthétisé à partir du NIST AI RMF, des conseils d'évaluation d'OpenAI, de la méthodologie de l'AISI et des conseils de planification de Microsoft.

Échantillonnage, sévérité et adjudication

L’échantillonnage est l’étape où le red teaming devient une conception d’évaluation. Google recommande des entrées diverses et représentatives couvrant les politiques produit, les cas d’utilisation, les modes de défaillance, la variété lexicale et la variété sémantique. Microsoft recommande de commencer par des tests ouverts pour découvrir les préjudices, puis de passer à des cycles guidés basés sur une liste de préjudices évolutive. En pratique, un échantillon ne doit pas se limiter à une liste publique de jailbreak et à quelques prompts improvisés. Il doit s’agir d’une sélection planifiée couvrant les catégories de préjudices, les intentions des utilisateurs, les surfaces, les langues et les stratégies d’élicitation plausibles. [6]

La sévérité nécessite également une structure avant que le programme ne passe à l’échelle. Le NIST définit le risque comme une combinaison de probabilité et de conséquence. Pour l’étiquetage par red-teaming, il s’agit d’un point de départ, et non d’une grille d’évaluation définitive. La plupart des équipes ont également besoin de dimensions telles que le type de préjudice, l’actionnabilité, la reproductibilité, le réalisme et la persistance du comportement après l’application des garde-fous habituels. Cette grille est une synthèse éditoriale fondée sur le cadre de risque du NIST et les pratiques d’évaluation, et non une norme citée. [2]

L’arbitrage est l’étape où les équipes échouent souvent discrètement. Google note que les humains peuvent annoter les contenus problématiques de manières différentes et recommande des directives ou des modèles clairs pour les évaluateurs. OpenAI recommande des grilles d’évaluation claires, des exemples de niveaux de score, des seuils de réussite/échec et une agrégation par consensus lorsque plusieurs réviseurs sont utilisés. Pour les cas de haute sévérité ou aux politiques ambiguës, traitez le désaccord humain comme un signal concernant le système de mesure, et non simplement comme du bruit lié aux annotateurs. [6][7]

Une règle opérationnelle utile est la suivante : si une découverte est de haute gravité, ambiguë sur le plan des politiques ou spécialisée dans un domaine, faites-la passer d’un étiquetage à examen unique à une adjudication par des experts. Si les examinateurs ne sont pas d’accord sur le fait que le modèle a enfreint la politique, le cas devrait généralement conduire à une révision de la rubrique avant d’entraîner un post-entraînement. Cette recommandation est une synthèse, mais elle découle des conseils cités sur la clarté des rubriques, l’étalonnage et l’examen humain.

Séparez délibérément le travail humain et automatisé

L’automatisation est plus utile lorsqu’il s’agit d’élargir le champ d’action, d’actualiser les données et de détecter les signaux faibles. Les travaux d’Anthropic sur les évaluations rédigées par des modèles ont montré que ces derniers peuvent aider à générer rapidement de nombreux éléments d’évaluation pertinents, avec un fort consensus des travailleurs de la foule sur les étiquettes dans ce contexte. L’AISI soutient que les évaluations automatisées des capacités sont suffisamment évolutives pour couvrir une grande partie de la surface des capacités préoccupantes. Google recommande également de commencer par des exemples de départ et de les étendre synthétiquement lorsque les jeux de données existants sont insuffisants. [8][4][6]

Les mêmes sources définissent également les limites. L’AISI affirme que les tests automatisés ne reflètent pas l’utilisation réelle et ne devraient pas, à eux seuls, étayer des conclusions solides. Google avertit que la précision des classificateurs peut être faible pour des concepts mal définis. OpenAI déclare que les évaluations ne se résument pas à des scores et recommande de calibrer la notation automatisée par rapport au jugement humain. [4][6][7]

Les sondes automatisées excellent dans trois domaines. Premièrement, elles améliorent la couverture en générant davantage de variantes lexicales et sémantiques qu’une petite équipe humaine ne pourrait le faire. Deuxièmement, elles rendent les tests de régression peu coûteux une fois qu’un cas devient une évaluation réutilisable. Troisièmement, elles permettent aux équipes d’attaquer un système à grande échelle grâce à un échantillonnage répété, ce qui est crucial car certaines classes de jailbreak s’améliorent avec davantage de tentatives. Les travaux d’Anthropic sur le many-shot sont un exemple de la façon dont un contexte long crée de nouveaux modes de défaillance. [9]

Les outils reflètent désormais cette division du travail. Microsoft PyRIT est un framework agnostique au modèle pour sonder les systèmes multimodaux et réutiliser des blocs de construction de red-teaming composables. AISI Inspect prend en charge le dialogue multi-tours, les structures d’agents, la notation par modèle et les journaux détaillés. Ces outils sont utiles car les résultats du red-teaming doivent devenir des artefacts d’évaluation analysables, et non des notes éparses. [10][11]

L’humain reste nécessaire lorsque la question n’est pas seulement « la politique a-t-elle échoué ? » mais « qu’est-ce qui compte vraiment ici ? ». Microsoft est direct : la médecine, la cybersécurité, les risques NRBC, les préjudices interculturels et les préjudices psychosociaux nécessitent un jugement d’expert. L’AISI décrit également le red teaming par des experts comme étant plus naturaliste et ouvert que les tests automatisés. [12][4]

LLM les juges ont besoin du même scepticisme. OpenAI recommande des formats par paires ou par réussite/échec, des rubriques claires et une validation par rapport aux étiquettes humaines, car les modèles juges peuvent être biaisés par l’ordre des réponses et la longueur de celles-ci. Utilisez les juges LLM comme des instruments de mesure : calibrez-les, vérifiez les dérives et auditez-les périodiquement. Ne leur donnez pas l’autorité finale sur les préjudices spécialisés ou les limites politiques ambiguës. [7]

Où l'automatisation aide, et où l'humain reste indispensable.

MéthodeMeilleure utilisationAvantage principalAngle mort principalExamen humain nécessaire ?
Sondes automatiséesTentatives répétées et étendues selon des tactiques connues.Étend la couverture et la cadence de rafraîchissement.Peut manquer de contexte produit réaliste et de dommages liés au domaine.Oui, pour les cas graves ou ambigus.
Variantes générées par le modèleExpansion des exemples de base à travers la formulation et la sémantique.Trouve rapidement des voisins lexicaux et sémantiques.Peut faire du surapprentissage sur des variations simples.Oui, pour l'étalonnage des étiquettes et les vérifications de nouveauté.
ClassifieursPrésélection de grands volumes de sortie.Triage et surveillance à faible coût.Faible précision sur les structures lâches.Oui, pour les décisions de politique et de gravité.
Juges LLMNotation par réussite/échec ou par paires avec des rubriques claires.Notation rapide et réutilisable une fois calibrée.Ordre, longueur, style et biais de domaine.Oui, avec des audits humains périodiques.
Suites de régression scriptéesRéexécution de cas connus après des changements de modèle ou de politique.Relecture stable et comparaison des différences.Mesure les modes de défaillance d'hier.Oui, lorsque les régressions présentent un risque élevé.
Experts humains du domaineMédecine, sécurité, NRBC, culturel, juridique ou préjudices psychosociaux.Jugement du contexte et des conséquences.Débit limité et désaccord en l'absence de rubriques.Ils constituent le parcours de révision.

Basé sur le classement de l'AISI, les tests contradictoires de Google, les pratiques d'évaluation d'OpenAI, les évaluations rédigées par les modèles d'Anthropic et les leçons de red teaming de Microsoft.

Une bonne répartition opérationnelle est simple. Laissez l’automatisation générer des attaques candidates, étendre les ensembles de départ, pré-étiqueter les cas évidents, regrouper les doublons et relancer les régressions. Laissez les humains définir la liste des préjudices, examiner les cas incertains ou graves, auditer la qualité du jugement et interpréter ce que la défaillance du système signifie pour le produit ou le modèle. Cette division est une synthèse fondée sur les sources ci-dessus.

Traitez les résultats comme des objets de données, pas comme des anecdotes

Si les résultats de l’équipe de red-teaming doivent devenir des données d’évaluation réutilisables, capturez bien plus que le prompt et la réponse finale. Microsoft recommande d’enregistrer au moins la date d’apparition, l’identifiant unique, le prompt d’entrée et les détails de la sortie. Google recommande d’annoter les sorties en fonction des modes de défaillance et des préjudices. Le modèle de journal d’Inspect montre ce qu’une représentation plus mature peut préserver : entrée, métadonnées de l’échantillon, scores, erreurs, messages et traces d’événements à plusieurs niveaux de granularité. [5][6][11]

Pour les équipes appliquées, le schéma minimal utile est généralement plus vaste. En plus de l’invite et de la réponse, conservez la version du modèle, la version ou le hash de l’invite système, la configuration des outils, le contexte ou les références de récupération, la méthode d’attaque, la catégorie de politique, le statut de refus, l’étiquette de l’évaluateur, l’étiquette de sévérité, la justification, le statut d’arbitrage, le regroupement de cas et le statut de routage. Cette liste de champs exacte est une synthèse, mais il s’agit d’une extension pratique des conseils actuels sur la capture structurée, les métadonnées et la notation.

La gestion des doublons est plus importante que ce que la plupart des équipes imaginent. Google recommande d’éviter les doublons et les exemples multi-étiquettes bruyants lors de la génération de jeux de données adverses. Sans déduplication, les « principaux modes de défaillance » se résument souvent à quelques modèles d’attaque viraux, qui biaisent alors à la fois le travail d’atténuation et les données d’entraînement. Conservez une notion de cas canonique par rapport au cluster de paraphrase, et rapportez à la fois le nombre brut et le nombre unique de familles d’attaques. La recommandation canonique-versus-cluster est une synthèse, mais le besoin d’unicité et de composition minutieuse provient directement des conseils de Google. [6]

Un schéma de cas de red-teaming réutilisable pour l'évaluation et les boucles de post-entraînement.

DomainePourquoi c'est importantSûr pour l'entraînement ?Sûr pour la validation ?Notes
ID de casAssure la traçabilité des révisions, des réexécutions et de la remédiation.OuiOuiLes identifiants stables doivent survivre au regroupement par paraphrase.
Invite/entréeDéfinit l'artefact d'élicitation.ParfoisOuiLes prompts de test exacts ne doivent pas devenir ultérieurement des exemples d'entraînement.
Sortie du modèleCapture le comportement observé.ParfoisOuiInclure les refus, les achèvements partiels et les sorties d'outils.
Version du modèleEmpêche les comparaisons erronées entre des systèmes en évolution.OuiOuiEnregistrez le modèle, le point de contrôle et le canal de publication pertinent.
Hachage du prompt systèmeAssocie le comportement aux instructions sans exposer de secrets.OuiOuiUtilisez des hachages ou des références contrôlées lorsque les prompts sont sensibles.
Contexte de l'outil/récupérationIndique ce que le harnais déployé a rendu disponible.ParfoisOuiEssentiel pour le RAG, l'utilisation d'outils, les contextes longs et les tests d'agents.
Méthode d'attaquePrend en charge la couverture et la déduplication.OuiOuiLes exemples incluent le jailbreak direct, l'injection indirecte, le jeu de rôle ou l'escalade multi-tours.
Catégorie de politiqueRelie la découverte à la rubrique.OuiOuiRéviser les catégories lorsque l'arbitrage révèle une ambiguïté.
Statut de refusSépare la conformité non sécurisée du refus excessif.OuiOuiNe regroupez pas tous les refus en succès.
Étiquette de l'évaluateurDéfinit la décision humaine ou celle de l'évaluateur calibré.OuiOuiSuivre le type de réviseur et l'état de calibration.
SévéritéPriorise la remédiation et les portes de mise en production.OuiOuiLes dimensions de sévérité sont une synthèse, pas une norme universelle.
JustificationRend les audits ultérieurs possibles.OuiOuiLes justifications courtes sont préférables aux étiquettes de classe opaques.
Statut d'adjudicationSépare les étiquettes de révision unique des cas résolus.OuiOuiLes cas de haute gravité et les cas contestés nécessitent une escalade.
ID de clusterEmpêche les prompts en double de dominer les rapports.OuiOuiRapporter séparément le nombre brut et le nombre de familles d'attaques uniques.
Statut de routageEmpêche les fuites entre l'entraînement et la mesure.Oui, lorsqu'il est acheminé vers l'entraînementOui, lorsqu'il est bloqué en tant que données de test (holdout)Les états possibles incluent candidat à l'entraînement, cas d'évaluation, holdout bloqué, révision de rubrique ou preuve de mise en production.

La liste des champs combine la documentation des outils et les conseils opérationnels ; le routage entraînement/holdout est une synthèse éditoriale.

Décidez de ce que devient chaque résultat avant de vous en servir pour l’entraînement

Il s’agit de la question opérationnelle centrale, et la réponse doit être consignée par écrit avant la première réunion post-entraînement.

Un cas de red-teaming peut devenir au moins cinq choses différentes : un exemple d’entraînement, un cas d’évaluation réutilisable, un élément de test mis de côté, une révision de politique ou de rubrique, ou une preuve pour le contrôle de mise en production. Les sources principales actuelles soutiennent la nécessité de ces voies distinctes, même si elles ne les regroupent pas dans un flux de travail standard unique. OpenAI met en garde contre la fuite de données d’évaluation dans le réglage fin par renforcement (RLHF), décrit des évaluations dérivées de la production qui sont actualisées périodiquement, et souligne les risques de validité tels que la contamination et le piratage de récompense. L’AISI plaide de même pour des seuils prédéfinis et des tests répétés tout au long du cycle de vie du modèle. [13][14][3][4]

Un cas est un candidat raisonnable à l’entraînement lorsque l’étiquette est stable, que l’échec est représentatif d’une utilisation réaliste, que la limite de la politique est claire et que l’exemple n’est pas réservé à une mesure future. Les travaux antérieurs d’Anthropic sur le red-teaming ont montré que l’utilisation de données de red-teaming dans les méthodes de sécurité réduisait la vulnérabilité au corpus d’attaques étudié. C’est pourquoi les équipes sont tentées de s’entraîner sur tout. C’est aussi pourquoi le contrôle des fuites est important : si ces mêmes cas sont utilisés plus tard comme preuve de progrès, la mesure est compromise. [15]

Gardez un cas hors de l’entraînement lorsqu’il est nécessaire en tant qu’ensemble de test, lorsqu’il ressemble à un benchmark public ou à un futur benchmark probable, lorsque l’étiquette est contestée, ou lorsque l’exploit est si spécifique à un cas que l’entraînement sur celui-ci apprendrait principalement au modèle à mémoriser un correctif. La note sur la contamination BrowseComp d’Anthropic montre comment une fuite publique peut gonfler les résultats, et l’analyse SWE-bench Verified d’OpenAI montre le même schéma d’échec à l’échelle d’un benchmark. Dans les deux cas, la leçon est la même : le même artefact ne peut pas être à la fois un matériel d’entraînement et une preuve de mesure honnête. [16][17]

Règle de routage pratique : si un cas a révélé un nouveau mode de défaillance, placez-le d’abord dans un compartiment de réserve (holdout). Ce n’est qu’après avoir actualisé la réserve et prouvé la correction sur de nouveaux cas que vous devriez envisager d’intégrer des variantes de ce modèle de défaillance à l’entraînement. Cette règle est une synthèse, mais elle respecte les directives actuelles sur les fuites provenant des sources des fournisseurs et des évaluateurs.

Un modèle opérationnel pour petites équipes qui ne prétend pas garantir la sécurité

Pour une petite équipe d’IA, l’objectif n’est pas de « tout couvrir ». L’objectif est de créer une boucle qui produit des preuves auxquelles vous pourrez toujours vous fier après les changements apportés au modèle.

Commencez par un modèle de menace concret et pertinent pour le déploiement, une surface de produit étroite et un cycle de découverte manuelle. Utilisez des testeurs diversifiés si possible, mais incluez au minimum une personne qui comprend les risques liés au domaine et une personne capable de réfléchir de manière contradictoire à l’interface du système. Microsoft recommande des testeurs diversifiés et des affectations explicites aux risques ou aux fonctionnalités ; Google recommande de partir d’exemples de base et de les développer avec précaution ; OpenAI recommande de créer des évaluations tôt, de tout consigner et de calibrer l’automatisation avec des étiquettes humaines. [5][6][7]

Ensuite, gelez la première tranche de résultats à haute confiance dans un ensemble d’évaluation contradictoire mis de côté. Ne procédez pas à un fine-tuning sur ces cas précis. Construisez des exécutions de régression simples autour d’eux, même si le système de notation est binaire avec un audit humain. Une fois que cela fonctionne, ajoutez une seconde voie pour les candidats à l’entraînement et maintenez une séparation nette. Les conseils d’évaluation d’OpenAI insistent à plusieurs reprises sur les données mises de côté, l’absence de chevauchement et des ensembles d’entraînement distincts pour les boucles de post-entraînement. [13][7]

Après cela, l’automatisation vaut l’effort. Utilisez des expansions générées par modèle, des classificateurs ou des juges LLM pour élargir la couverture et réduire les coûts de revue, mais uniquement dans les domaines où vous avez établi ce qu’une étiquette correcte signifie. L’approche par paliers de l’AISI est un modèle utile : laissez des tests automatisés plus légers identifier rapidement les préoccupations, puis passez à une élicitation sur mesure et à une revue experte lorsque le signal est important. [4]

Rien de tout cela ne prouve qu’un système est sûr. C’est une mauvaise promesse. Une bonne boucle de red-teaming vous fournit des cas que vous pouvez rejouer, des étiquettes que vous pouvez défendre, des données de test sur lesquelles vous n’avez pas entraîné le modèle, et suffisamment de structure pour déterminer si une mesure d’atténuation a réellement modifié le modèle ou a simplement corrigé une invite de démonstration.

OpenTrain peut aider les équipes à recruter des red-teamers, des réviseurs spécialisés et des experts en évaluation pour ce travail. Utilisez la référence de fiabilité du juge LLM pour le calibrage des évaluateurs, le guide RLAIF vs RLHF pour les limites de l’automatisation, la référence PRM vs ORM pour la conception des objectifs de mesure, et le guide de cadrage RLHF pour la planification des boucles de révision. Lorsque le goulot d’étranglement est le personnel de la boucle de révision, publiez une offre d’emploi.

Sources