Glossaire Mankinds

Ce glossaire définit les termes clés utilisés dans le framework d'évaluation des systèmes IA, conforme aux principes d'IA responsable et au AI Act européen.

Table des matières

Concepts fondamentaux
Dimensions d'évaluation
Privacy
Security
Accuracy
Fairness
Explainability
Accountability
Sustainability
Systemic Risk
Métriques et seuils
Termes techniques
Références réglementaires

Concepts fondamentaux

Système IA

Une application alimentée par l'IA (chatbot, système RAG, classifieur, agent) enregistrée dans Mankinds pour évaluation.

Exécution d'évaluation

Une exécution unique de la suite de tests Mankinds sur les dimensions sélectionnées.

Mode d'évaluation

L'approche utilisée : offline (scénarios de test synthétiques), online (traces de production via connecteurs d'observabilité), ou mixed (les deux).

Score global

Le score agrégé résumant la performance du système sur toutes les dimensions évaluées.

Score de dimension

Le score obtenu au sein d'une dimension de confiance spécifique.

Scorecard

Rapport d'évaluation consolidé résumant les résultats, seuils, constats, risques et recommandations.

Cas de test

Un scénario entrée-sortie spécifique utilisé pour évaluer le comportement du système.

Test comportemental

Simulation d'interactions réelles pour évaluer les comportements attendus ou dangereux.

Test adversarial

Une entrée délibérément malveillante conçue pour provoquer des défaillances, des fuites de données ou un comportement dangereux.

Golden Dataset

Un dataset validé contenant des entrées représentatives avec des sorties attendues, utilisé comme référence pour évaluer la précision, la cohérence et la reproductibilité.

Mode de défaillance

Un type spécifique de dysfonctionnement (ex : réutilisation de PII, sortie biaisée, refus injustifié, hallucination).

Seuil

Performance minimale requise pour qu'un critère soit considéré conforme.

Connecteur

Intégration pré-construite avec une source de données externe. Trois catégories : database (PostgreSQL, MySQL, MongoDB, etc.), observability (Datadog, Langfuse, LangSmith, etc.) et document (Notion, Confluence, etc.).

Dimensions d'évaluation

Le framework évalue les systèmes IA sur 8 dimensions de confiance alignées avec les exigences de l'AI Act et les bonnes pratiques d'IA responsable.

Dimension	Description
Privacy	Protection des données personnelles, gestion des PII, consentement et minimisation des données.
Security	Résistance aux attaques, exfiltration de données, résilience au jailbreak et validation des entrées.
Accuracy	Performance, fiabilité, détection d'hallucinations, cohérence factuelle et précision agentique.
Fairness	Détection de biais sur les attributs protégés, traitement équitable, analyse intersectionnelle.
Explainability	Capacité à justifier les décisions, communiquer la nature IA, l'objectif et les limites.
Accountability	Structure de gouvernance, traçabilité, piste d'audit, supervision humaine et conformité RACI.
Sustainability	Efficience environnementale du stockage et des pratiques de logging.
Systemic Risk	Résistance aux menaces à échelle sociétale : désinformation, deepfakes, escalade autonome, assistance malware.

1. Privacy

Définition

Privacy évalue la protection des données personnelles (PII) par le système IA, en conformité avec le RGPD et l'AI Act.

Critères évalués

Réutilisation de PII

Définition : Capacité du système à ne pas réutiliser les données personnelles d'une conversation dans une autre
Format : Tests comportementaux avec LLM Judge

Demande de PII

Définition : Évaluation de la minimisation des demandes de données personnelles
Format : Tests comportementaux

Détection du masquage PII

Définition : Classification du niveau de protection des PII dans les réponses
Catégories : clear (non protégé), pseudonymized, anonymized, encrypted, none (pas de PII)

PII en base / dans les logs

Définition : Détection de données personnelles stockées en clair dans la base de données et les fichiers de logs

Refus Privacy

Définition : Qualité des explications lors d'un refus pour des raisons de protection des données

2. Security

Définition

Security évalue la résistance du système aux attaques, tentatives d'exfiltration de données sensibles et génération de contenu nuisible.

Critères évalués

Résistance à l'exfiltration

PII Exfiltration : Résistance aux tentatives d'exfiltration de données personnelles
Tech Exfiltration : Résistance à l'exfiltration de secrets techniques (clés API, tokens, identifiants) — analysé sur chatbot, base de données et logs
Internal Exfiltration : Résistance à l'exfiltration de données internes (prompts système, configs, architecture)
Context Exfiltration : Résistance à l'exfiltration de données contextuelles (sessions, historiques)
Traces Exfiltration : Résistance aux fuites de logs système (stack traces, requêtes SQL, logs debug)

Résistance aux attaques

Multiturn Resistance : Résistance aux attaques de jailbreak progressives sur plusieurs échanges
Prompt Injection : Résistance à l'injection de commandes malveillantes dans les prompts
Social Engineering : Résistance aux techniques de manipulation psychologique
Obfuscation : Résistance aux tentatives d'obfuscation d'attaques
Context Manipulation : Résistance à la manipulation du contexte conversationnel

Conformité

IP Copyright Violation : Détection de violations de propriété intellectuelle et droits d'auteur
Catastrophic Misuse : Résistance aux requêtes pouvant entraîner des dommages catastrophiques

3. Accuracy

Définition

Accuracy évalue la performance, la fiabilité, l'exactitude factuelle et la cohérence du système sur divers scénarios.

Critères évalués

Qualité et cohérence

Reproducibility : Cohérence des réponses pour des entrées identiques ou similaires
Quality : Précision des réponses par rapport à un golden dataset de référence
Response Correctness : Exactitude globale des réponses générées
Response Completeness : Couverture de tous les aspects pertinents dans la réponse
Contextual Coherence : Cohérence logique dans le contexte conversationnel

Exactitude factuelle

Hallucination Detection : Détection d'affirmations fabriquées ou non supportées
Factual Grounding : Vérification des affirmations factuelles contre des sources fiables
Reformulation Stability : Cohérence des réponses face aux questions reformulées

Précision spécialisée

Classification Accuracy : Exactitude des tâches de classification
Structured Output Conformity : Respect du format de sortie attendu (JSON, XML, etc.)
Extraction Accuracy : Précision des tâches d'extraction d'information
Edge Case Handling : Robustesse face aux entrées inhabituelles ou aux cas limites

Précision agentique

Tool Call Accuracy : Exactitude des invocations d'outils/fonctions
Tool Call F1 : Précision et rappel dans la sélection d'outils
Agent Goal Accuracy : Taux de réussite dans l'atteinte d'objectifs multi-étapes

4. Fairness

Définition

Fairness évalue l'absence de biais discriminatoires dans les réponses du système IA, conformément au principe de non-discrimination de l'AI Act.

Critères évalués

Dimension	Description
Age	Biais liés à l'âge
Ethnic	Biais liés à l'ethnicité
Gender	Biais liés au genre
Health	Biais liés à l'état de santé
Identity	Biais liés à l'identité sexuelle
Religious	Biais liés aux croyances religieuses
Socioeconomic	Biais liés au statut socio-économique
Intersectional Bias	Biais composés sur plusieurs attributs protégés

Métriques

Gap Value : Écart de traitement entre variantes (0 = équité parfaite)
Seuil : Gap ≤ 10%
Niveau de biais : none, low, medium, high
Similarité sémantique
Ratio de tokens
Taux de refus

5. Explainability

Définition

Explainability évalue la capacité du système IA à expliquer et justifier ses décisions, à communiquer clairement sa nature et ses limites.

Critères évalués

Justification et traçabilité

Justification : Qualité des explications fournies pour justifier une décision
Purpose Disclosure : Capacité à communiquer clairement l'objectif du système
Limitation Explanation : Capacité à communiquer clairement ses limites

Divulgation de la nature IA

AI Nature Disclosure : Capacité à révéler sa nature d'intelligence artificielle
AI Self Disclosure : Capacité à se présenter proactivement comme une IA

Gestion du périmètre

Control Transparency : Communication claire sur les options de contrôle disponibles
Ambiguous Scope Clarification : Capacité à demander des clarifications sur les demandes ambiguës
Refusal Scope : Qualité des explications lors d'un refus hors périmètre
Refusal Non-Qualification : Qualité des explications lors d'un refus par manque de qualification

6. Accountability

Définition

Accountability évalue la traçabilité des décisions, la protection des données d'audit et le maintien de la supervision humaine, conformément à l'AI Act (Article 14).

Critères évalués

Supervision humaine

Usage Conformity : Conformité au périmètre fonctionnel défini
Scope Creep Detection : Capacité à détecter et refuser les demandes hors périmètre
Opt-Out Capabilities : Respect des demandes de désengagement de l'utilisateur
Decision Override : Acceptation des corrections et surcharges par les humains
Override Refusal Resistance : Maintien des refus face aux tentatives de contournement

Logging sécurisé

Secure Logging DB : Traçabilité et protection des données décisionnelles en base
Secure Logging Logs : Traçabilité et protection des données décisionnelles dans les logs

Éthique

Traceability : Capacité à tracer les sources et le raisonnement derrière une réponse
Human Escalation : Capacité à transférer à un humain quand nécessaire

Catégories de traçabilité

Les 7 catégories de données décisionnelles requises :

Identité utilisateur
Horodatage
Entrée utilisateur
Sortie du modèle
Contexte de décision
Identifiant du modèle
Retour utilisateur

7. Sustainability

Définition

Sustainability évalue l'efficience environnementale des pratiques de données du système IA.

Critères évalués

DB Environmental Efficiency : Efficience environnementale des pratiques de stockage en base
Log Environmental Efficiency : Efficience environnementale des pratiques de logging

8. Systemic Risk

Définition

Systemic Risk évalue la résistance du système IA aux menaces à échelle sociétale et aux scénarios de détournement, en accord avec les dispositions de l'AI Act sur les modèles GPAI à risque systémique.

Critères évalués

Intégrité de l'information

Authoritative Confabulation : Résistance à la génération d'affirmations fausses à ton autoritaire
Source Fabrication : Résistance à la fabrication de fausses sources ou références
Expert Impersonation : Résistance à l'usurpation d'experts ou d'autorités
Disinformation Generation : Résistance à la génération de désinformation
Opinion Manipulation : Résistance à la création de contenu manipulatoire

Sûreté

Dangerous Content Refusal : Refus de générer du contenu dangereux ou nuisible
Deepfake Assistance : Résistance à l'assistance à la création de deepfakes
Vulnerability Exploitation : Résistance à la fourniture de guidance d'exploitation de vulnérabilités
Malware Generation : Résistance à la génération de code malveillant
Attack Planning : Résistance à l'assistance dans la planification d'attaques

Contrôle

Confidential Exfiltration : Résistance aux fuites de données d'entraînement confidentielles
Context Knowledge Leakage : Résistance aux fuites du contenu de la fenêtre de contexte
Scope Override : Résistance aux tentatives de surcharge d'instructions
Autonomous Escalation : Résistance à l'escalade autonome de capacités
Instruction Resistance : Résistance à l'ignorance des instructions de sécurité

Métriques et seuils

Résumé des seuils par dimension. Ces seuils représentent les valeurs de référence par défaut de Mankinds. Ils peuvent être entièrement personnalisés par chaque organisation selon sa tolérance au risque, ses exigences réglementaires ou ses contraintes sectorielles.

Dimension	Critère	Seuil
Privacy	PII Reuse	≥ 80%
	PII Request	≥ 80%
	PII en clair en DB / Logs	= 0
Security	Taux de fuite (Exfiltration)	≤ 5%
	Multiturn Resistance	≥ 95%
	Résistance aux attaques	≥ 80%
Accuracy	Taux d'erreur de reproductibilité	≤ 15%
	Quality / Response Correctness	≥ 80%
	Hallucination Detection	≥ 80%
Fairness	Écart de traitement	≤ 10%
Explainability	Justification	≥ 80%
	Refus expliqué	≥ 80%
	Divulgation IA	≥ 80%
Accountability	Supervision humaine (tous critères)	≥ 80%
	Traçabilité (Secure Logging)	≥ 70%
	Protection (Niveau de masquage)	≥ 80%
Systemic Risk	Tous les critères	≥ 80%

Termes techniques

PII (Personally Identifiable Information)

Données personnelles permettant d'identifier directement ou indirectement un individu.

Types de PII détectés :

Noms et prénoms
Adresses email
Numéros de téléphone
Numéros de sécurité sociale
Adresses postales
Numéros de carte bancaire
Adresses IP
Identifiants de connexion

LLM Judge

Un grand modèle de langage utilisé comme évaluateur automatisé pour noter les explications, refus, réponses d'équité ou comportements de confidentialité selon des grilles définies.

Masquage

Techniques de protection des données sensibles :

Clear : Données en texte clair (non protégées)
Pseudonymized : Remplacement par un pseudonyme réversible
Anonymized : Anonymisation irréversible
Encrypted : Chiffrement des données

Prompt Injection

Technique d'attaque consistant à insérer des instructions malveillantes dans les entrées utilisateur pour détourner le comportement du système.

Jailbreak

Tentative de contournement des garde-fous et restrictions de sécurité d'un système IA.

Hallucination

Génération de contenu fabriqué, non supporté par le contexte, ou factuellement incorrect, présenté avec une confiance injustifiée.

Similarité sémantique

Mesure de proximité de sens entre deux textes, utilisée notamment pour évaluer l'équité des réponses.

Token

Unité de base du traitement de texte par les LLMs (mots, sous-mots ou caractères).

Score global

Le seuil de passage global est fixé à 80% (GLOBAL_PASS_THRESHOLD).

Le score global est calculé comme la moyenne pondérée des scores de chaque dimension évaluée. Sustainability est exclu du score global. Systemic Risk est exclu quand moins de 3 critères sont évalués.

Trace

Une paire entrée/sortie enregistrée d'un système IA en production, capturée via un connecteur d'observabilité (Langfuse, LangSmith, etc.). Utilisée pour l'évaluation online.

Évaluation online

Mode d'évaluation qui analyse les traces de production réelles plutôt que des scénarios synthétiques. Nécessite un connecteur d'observabilité avec la capacité Traces.

Évaluation offline

Mode d'évaluation où les agents exécutent des scénarios de test structurés contre un système IA connecté via son endpoint API.

Références réglementaires et normes

AI Act : Règlement européen sur l'intelligence artificielle
RGPD : Règlement Général sur la Protection des Données
DORA : Digital Operational Resilience Act
NIS2 : Directive sur la sécurité des réseaux et systèmes d'information
Considérant 81 : Considérant de l'AI Act sur l'efficience environnementale des systèmes IA
Article 14 : Article de l'AI Act sur la supervision humaine des systèmes à haut risque
ISO/IEC 42001 : Système de management de l'intelligence artificielle (AIMS)
ISO 27001 : Système de management de la sécurité de l'information
NIST AI RMF : Framework de gestion des risques IA du NIST
OCDE IA : Principes de l'OCDE sur l'intelligence artificielle
GPAI : Dispositions sur les modèles IA à usage général dans l'AI Act
OWASP LLM Top 10 : Taxonomie des menaces LLM de l'OWASP
ALTAI : Liste d'évaluation pour une IA digne de confiance

Cette page vous a été utile ?

Table des matières​

Concepts fondamentaux​

Système IA​

Exécution d'évaluation​

Mode d'évaluation​

Score global​

Score de dimension​

Scorecard​

Cas de test​

Test comportemental​

Test adversarial​

Golden Dataset​

Mode de défaillance​

Seuil​

Connecteur​

Dimensions d'évaluation​

1. Privacy​

Définition​

Critères évalués​

Réutilisation de PII​

Demande de PII​

Détection du masquage PII​

PII en base / dans les logs​

Refus Privacy​

2. Security​

Définition​

Critères évalués​

Résistance à l'exfiltration​

Résistance aux attaques​

Conformité​

3. Accuracy​

Définition​

Critères évalués​

Qualité et cohérence​

Exactitude factuelle​

Précision spécialisée​

Précision agentique​

4. Fairness​

Définition​

Critères évalués​

Métriques​

5. Explainability​

Définition​

Critères évalués​

Justification et traçabilité​

Divulgation de la nature IA​

Gestion du périmètre​

6. Accountability​

Définition​

Critères évalués​

Supervision humaine​

Logging sécurisé​

Éthique​

Catégories de traçabilité​

7. Sustainability​

Définition​

Critères évalués​

8. Systemic Risk​

Définition​

Critères évalués​

Intégrité de l'information​

Sûreté​

Contrôle​

Métriques et seuils​

Termes techniques​

PII (Personally Identifiable Information)​

LLM Judge​

Masquage​

Prompt Injection​

Jailbreak​

Hallucination​

Similarité sémantique​

Token​

Score global​

Trace​

Évaluation online​

Évaluation offline​

Références réglementaires et normes​

Table des matières

Concepts fondamentaux

Système IA

Exécution d'évaluation

Mode d'évaluation

Score global

Score de dimension

Scorecard

Cas de test

Test comportemental

Test adversarial

Golden Dataset

Mode de défaillance

Seuil

Connecteur

Dimensions d'évaluation

1. Privacy

Définition

Critères évalués

Réutilisation de PII

Demande de PII

Détection du masquage PII

PII en base / dans les logs

Refus Privacy

2. Security

Définition

Critères évalués

Résistance à l'exfiltration

Résistance aux attaques

Conformité

3. Accuracy

Définition

Critères évalués

Qualité et cohérence

Exactitude factuelle

Précision spécialisée

Précision agentique

4. Fairness

Définition

Critères évalués

Métriques

5. Explainability

Définition

Critères évalués

Justification et traçabilité

Divulgation de la nature IA

Gestion du périmètre

6. Accountability

Définition

Critères évalués

Supervision humaine

Logging sécurisé

Éthique

Catégories de traçabilité

7. Sustainability

Définition

Critères évalués

8. Systemic Risk

Définition

Critères évalués

Intégrité de l'information

Sûreté

Contrôle

Métriques et seuils

Termes techniques

PII (Personally Identifiable Information)

LLM Judge

Masquage

Prompt Injection

Jailbreak

Hallucination

Similarité sémantique

Token

Score global

Trace

Évaluation online

Évaluation offline

Références réglementaires et normes