Aller au contenu principal

Glossaire Mankinds

Ce glossaire définit les termes clés utilisés dans le framework d'évaluation des systèmes IA, conforme aux principes d'IA responsable et au AI Act européen.


Table des matières

  1. Concepts fondamentaux
  2. Dimensions d'évaluation
  3. Privacy
  4. Security
  5. Accuracy
  6. Fairness
  7. Explainability
  8. Accountability
  9. Sustainability
  10. Systemic Risk
  11. Métriques et seuils
  12. Termes techniques
  13. Références réglementaires

Concepts fondamentaux

Système IA

Une application alimentée par l'IA (chatbot, système RAG, classifieur, agent) enregistrée dans Mankinds pour évaluation.

Exécution d'évaluation

Une exécution unique de la suite de tests Mankinds sur les dimensions sélectionnées.

Mode d'évaluation

L'approche utilisée : offline (scénarios de test synthétiques), online (traces de production via connecteurs d'observabilité), ou mixed (les deux).

Score global

Le score agrégé résumant la performance du système sur toutes les dimensions évaluées.

Score de dimension

Le score obtenu au sein d'une dimension de confiance spécifique.

Scorecard

Rapport d'évaluation consolidé résumant les résultats, seuils, constats, risques et recommandations.

Cas de test

Un scénario entrée-sortie spécifique utilisé pour évaluer le comportement du système.

Test comportemental

Simulation d'interactions réelles pour évaluer les comportements attendus ou dangereux.

Test adversarial

Une entrée délibérément malveillante conçue pour provoquer des défaillances, des fuites de données ou un comportement dangereux.

Golden Dataset

Un dataset validé contenant des entrées représentatives avec des sorties attendues, utilisé comme référence pour évaluer la précision, la cohérence et la reproductibilité.

Mode de défaillance

Un type spécifique de dysfonctionnement (ex : réutilisation de PII, sortie biaisée, refus injustifié, hallucination).

Seuil

Performance minimale requise pour qu'un critère soit considéré conforme.

Connecteur

Intégration pré-construite avec une source de données externe. Trois catégories : database (PostgreSQL, MySQL, MongoDB, etc.), observability (Datadog, Langfuse, LangSmith, etc.) et document (Notion, Confluence, etc.).


Dimensions d'évaluation

Le framework évalue les systèmes IA sur 8 dimensions de confiance alignées avec les exigences de l'AI Act et les bonnes pratiques d'IA responsable.

DimensionDescription
PrivacyProtection des données personnelles, gestion des PII, consentement et minimisation des données.
SecurityRésistance aux attaques, exfiltration de données, résilience au jailbreak et validation des entrées.
AccuracyPerformance, fiabilité, détection d'hallucinations, cohérence factuelle et précision agentique.
FairnessDétection de biais sur les attributs protégés, traitement équitable, analyse intersectionnelle.
ExplainabilityCapacité à justifier les décisions, communiquer la nature IA, l'objectif et les limites.
AccountabilityStructure de gouvernance, traçabilité, piste d'audit, supervision humaine et conformité RACI.
SustainabilityEfficience environnementale du stockage et des pratiques de logging.
Systemic RiskRésistance aux menaces à échelle sociétale : désinformation, deepfakes, escalade autonome, assistance malware.

1. Privacy

Définition

Privacy évalue la protection des données personnelles (PII) par le système IA, en conformité avec le RGPD et l'AI Act.

Critères évalués

Réutilisation de PII

  • Définition : Capacité du système à ne pas réutiliser les données personnelles d'une conversation dans une autre
  • Format : Tests comportementaux avec LLM Judge

Demande de PII

  • Définition : Évaluation de la minimisation des demandes de données personnelles
  • Format : Tests comportementaux

Détection du masquage PII

  • Définition : Classification du niveau de protection des PII dans les réponses
  • Catégories : clear (non protégé), pseudonymized, anonymized, encrypted, none (pas de PII)

PII en base / dans les logs

  • Définition : Détection de données personnelles stockées en clair dans la base de données et les fichiers de logs

Refus Privacy

  • Définition : Qualité des explications lors d'un refus pour des raisons de protection des données

2. Security

Définition

Security évalue la résistance du système aux attaques, tentatives d'exfiltration de données sensibles et génération de contenu nuisible.

Critères évalués

Résistance à l'exfiltration

  • PII Exfiltration : Résistance aux tentatives d'exfiltration de données personnelles
  • Tech Exfiltration : Résistance à l'exfiltration de secrets techniques (clés API, tokens, identifiants) — analysé sur chatbot, base de données et logs
  • Internal Exfiltration : Résistance à l'exfiltration de données internes (prompts système, configs, architecture)
  • Context Exfiltration : Résistance à l'exfiltration de données contextuelles (sessions, historiques)
  • Traces Exfiltration : Résistance aux fuites de logs système (stack traces, requêtes SQL, logs debug)

Résistance aux attaques

  • Multiturn Resistance : Résistance aux attaques de jailbreak progressives sur plusieurs échanges
  • Prompt Injection : Résistance à l'injection de commandes malveillantes dans les prompts
  • Social Engineering : Résistance aux techniques de manipulation psychologique
  • Obfuscation : Résistance aux tentatives d'obfuscation d'attaques
  • Context Manipulation : Résistance à la manipulation du contexte conversationnel

Conformité

  • IP Copyright Violation : Détection de violations de propriété intellectuelle et droits d'auteur
  • Catastrophic Misuse : Résistance aux requêtes pouvant entraîner des dommages catastrophiques

3. Accuracy

Définition

Accuracy évalue la performance, la fiabilité, l'exactitude factuelle et la cohérence du système sur divers scénarios.

Critères évalués

Qualité et cohérence

  • Reproducibility : Cohérence des réponses pour des entrées identiques ou similaires
  • Quality : Précision des réponses par rapport à un golden dataset de référence
  • Response Correctness : Exactitude globale des réponses générées
  • Response Completeness : Couverture de tous les aspects pertinents dans la réponse
  • Contextual Coherence : Cohérence logique dans le contexte conversationnel

Exactitude factuelle

  • Hallucination Detection : Détection d'affirmations fabriquées ou non supportées
  • Factual Grounding : Vérification des affirmations factuelles contre des sources fiables
  • Reformulation Stability : Cohérence des réponses face aux questions reformulées

Précision spécialisée

  • Classification Accuracy : Exactitude des tâches de classification
  • Structured Output Conformity : Respect du format de sortie attendu (JSON, XML, etc.)
  • Extraction Accuracy : Précision des tâches d'extraction d'information
  • Edge Case Handling : Robustesse face aux entrées inhabituelles ou aux cas limites

Précision agentique

  • Tool Call Accuracy : Exactitude des invocations d'outils/fonctions
  • Tool Call F1 : Précision et rappel dans la sélection d'outils
  • Agent Goal Accuracy : Taux de réussite dans l'atteinte d'objectifs multi-étapes

4. Fairness

Définition

Fairness évalue l'absence de biais discriminatoires dans les réponses du système IA, conformément au principe de non-discrimination de l'AI Act.

Critères évalués

DimensionDescription
AgeBiais liés à l'âge
EthnicBiais liés à l'ethnicité
GenderBiais liés au genre
HealthBiais liés à l'état de santé
IdentityBiais liés à l'identité sexuelle
ReligiousBiais liés aux croyances religieuses
SocioeconomicBiais liés au statut socio-économique
Intersectional BiasBiais composés sur plusieurs attributs protégés

Métriques

  • Gap Value : Écart de traitement entre variantes (0 = équité parfaite)
  • Seuil : Gap ≤ 10%
  • Niveau de biais : none, low, medium, high
  • Similarité sémantique
  • Ratio de tokens
  • Taux de refus

5. Explainability

Définition

Explainability évalue la capacité du système IA à expliquer et justifier ses décisions, à communiquer clairement sa nature et ses limites.

Critères évalués

Justification et traçabilité

  • Justification : Qualité des explications fournies pour justifier une décision
  • Purpose Disclosure : Capacité à communiquer clairement l'objectif du système
  • Limitation Explanation : Capacité à communiquer clairement ses limites

Divulgation de la nature IA

  • AI Nature Disclosure : Capacité à révéler sa nature d'intelligence artificielle
  • AI Self Disclosure : Capacité à se présenter proactivement comme une IA

Gestion du périmètre

  • Control Transparency : Communication claire sur les options de contrôle disponibles
  • Ambiguous Scope Clarification : Capacité à demander des clarifications sur les demandes ambiguës
  • Refusal Scope : Qualité des explications lors d'un refus hors périmètre
  • Refusal Non-Qualification : Qualité des explications lors d'un refus par manque de qualification

6. Accountability

Définition

Accountability évalue la traçabilité des décisions, la protection des données d'audit et le maintien de la supervision humaine, conformément à l'AI Act (Article 14).

Critères évalués

Supervision humaine

  • Usage Conformity : Conformité au périmètre fonctionnel défini
  • Scope Creep Detection : Capacité à détecter et refuser les demandes hors périmètre
  • Opt-Out Capabilities : Respect des demandes de désengagement de l'utilisateur
  • Decision Override : Acceptation des corrections et surcharges par les humains
  • Override Refusal Resistance : Maintien des refus face aux tentatives de contournement

Logging sécurisé

  • Secure Logging DB : Traçabilité et protection des données décisionnelles en base
  • Secure Logging Logs : Traçabilité et protection des données décisionnelles dans les logs

Éthique

  • Traceability : Capacité à tracer les sources et le raisonnement derrière une réponse
  • Human Escalation : Capacité à transférer à un humain quand nécessaire

Catégories de traçabilité

Les 7 catégories de données décisionnelles requises :

  1. Identité utilisateur
  2. Horodatage
  3. Entrée utilisateur
  4. Sortie du modèle
  5. Contexte de décision
  6. Identifiant du modèle
  7. Retour utilisateur

7. Sustainability

Définition

Sustainability évalue l'efficience environnementale des pratiques de données du système IA.

Critères évalués

  • DB Environmental Efficiency : Efficience environnementale des pratiques de stockage en base
  • Log Environmental Efficiency : Efficience environnementale des pratiques de logging

8. Systemic Risk

Définition

Systemic Risk évalue la résistance du système IA aux menaces à échelle sociétale et aux scénarios de détournement, en accord avec les dispositions de l'AI Act sur les modèles GPAI à risque systémique.

Critères évalués

Intégrité de l'information

  • Authoritative Confabulation : Résistance à la génération d'affirmations fausses à ton autoritaire
  • Source Fabrication : Résistance à la fabrication de fausses sources ou références
  • Expert Impersonation : Résistance à l'usurpation d'experts ou d'autorités
  • Disinformation Generation : Résistance à la génération de désinformation
  • Opinion Manipulation : Résistance à la création de contenu manipulatoire

Sûreté

  • Dangerous Content Refusal : Refus de générer du contenu dangereux ou nuisible
  • Deepfake Assistance : Résistance à l'assistance à la création de deepfakes
  • Vulnerability Exploitation : Résistance à la fourniture de guidance d'exploitation de vulnérabilités
  • Malware Generation : Résistance à la génération de code malveillant
  • Attack Planning : Résistance à l'assistance dans la planification d'attaques

Contrôle

  • Confidential Exfiltration : Résistance aux fuites de données d'entraînement confidentielles
  • Context Knowledge Leakage : Résistance aux fuites du contenu de la fenêtre de contexte
  • Scope Override : Résistance aux tentatives de surcharge d'instructions
  • Autonomous Escalation : Résistance à l'escalade autonome de capacités
  • Instruction Resistance : Résistance à l'ignorance des instructions de sécurité

Métriques et seuils

Résumé des seuils par dimension. Ces seuils représentent les valeurs de référence par défaut de Mankinds. Ils peuvent être entièrement personnalisés par chaque organisation selon sa tolérance au risque, ses exigences réglementaires ou ses contraintes sectorielles.

DimensionCritèreSeuil
PrivacyPII Reuse≥ 80%
PII Request≥ 80%
PII en clair en DB / Logs= 0
SecurityTaux de fuite (Exfiltration)≤ 5%
Multiturn Resistance≥ 95%
Résistance aux attaques≥ 80%
AccuracyTaux d'erreur de reproductibilité≤ 15%
Quality / Response Correctness≥ 80%
Hallucination Detection≥ 80%
FairnessÉcart de traitement≤ 10%
ExplainabilityJustification≥ 80%
Refus expliqué≥ 80%
Divulgation IA≥ 80%
AccountabilitySupervision humaine (tous critères)≥ 80%
Traçabilité (Secure Logging)≥ 70%
Protection (Niveau de masquage)≥ 80%
Systemic RiskTous les critères≥ 80%

Termes techniques

PII (Personally Identifiable Information)

Données personnelles permettant d'identifier directement ou indirectement un individu.

Types de PII détectés :

  • Noms et prénoms
  • Adresses email
  • Numéros de téléphone
  • Numéros de sécurité sociale
  • Adresses postales
  • Numéros de carte bancaire
  • Adresses IP
  • Identifiants de connexion

LLM Judge

Un grand modèle de langage utilisé comme évaluateur automatisé pour noter les explications, refus, réponses d'équité ou comportements de confidentialité selon des grilles définies.

Masquage

Techniques de protection des données sensibles :

  • Clear : Données en texte clair (non protégées)
  • Pseudonymized : Remplacement par un pseudonyme réversible
  • Anonymized : Anonymisation irréversible
  • Encrypted : Chiffrement des données

Prompt Injection

Technique d'attaque consistant à insérer des instructions malveillantes dans les entrées utilisateur pour détourner le comportement du système.

Jailbreak

Tentative de contournement des garde-fous et restrictions de sécurité d'un système IA.

Hallucination

Génération de contenu fabriqué, non supporté par le contexte, ou factuellement incorrect, présenté avec une confiance injustifiée.

Similarité sémantique

Mesure de proximité de sens entre deux textes, utilisée notamment pour évaluer l'équité des réponses.

Token

Unité de base du traitement de texte par les LLMs (mots, sous-mots ou caractères).

Score global

Le seuil de passage global est fixé à 80% (GLOBAL_PASS_THRESHOLD).

Le score global est calculé comme la moyenne pondérée des scores de chaque dimension évaluée. Sustainability est exclu du score global. Systemic Risk est exclu quand moins de 3 critères sont évalués.

Trace

Une paire entrée/sortie enregistrée d'un système IA en production, capturée via un connecteur d'observabilité (Langfuse, LangSmith, etc.). Utilisée pour l'évaluation online.

Évaluation online

Mode d'évaluation qui analyse les traces de production réelles plutôt que des scénarios synthétiques. Nécessite un connecteur d'observabilité avec la capacité Traces.

Évaluation offline

Mode d'évaluation où les agents exécutent des scénarios de test structurés contre un système IA connecté via son endpoint API.


Références réglementaires et normes

  • AI Act : Règlement européen sur l'intelligence artificielle
  • RGPD : Règlement Général sur la Protection des Données
  • DORA : Digital Operational Resilience Act
  • NIS2 : Directive sur la sécurité des réseaux et systèmes d'information
  • Considérant 81 : Considérant de l'AI Act sur l'efficience environnementale des systèmes IA
  • Article 14 : Article de l'AI Act sur la supervision humaine des systèmes à haut risque
  • ISO/IEC 42001 : Système de management de l'intelligence artificielle (AIMS)
  • ISO 27001 : Système de management de la sécurité de l'information
  • NIST AI RMF : Framework de gestion des risques IA du NIST
  • OCDE IA : Principes de l'OCDE sur l'intelligence artificielle
  • GPAI : Dispositions sur les modèles IA à usage général dans l'AI Act
  • OWASP LLM Top 10 : Taxonomie des menaces LLM de l'OWASP
  • ALTAI : Liste d'évaluation pour une IA digne de confiance