Glossaire de Connaissances Mankinds
Ce glossaire définit les termes clés utilisés dans le framework d'évaluation des systèmes d'intelligence artificielle, conforme aux principes de l'IA responsable et à l'AI Act européen.
Table des matières
- Concepts fondamentaux de l'IA
- Thématiques d'évaluation
- Privacy & Security (Vie privée & Sécurité)
- Reliability & Performance (Fiabilité & Performance)
- Fairness & Ethics (Équité & Éthique)
- Explainability & Transparency (Explicabilité & Transparence)
- Accountability & Responsibility (Responsabilité & Gouvernance)
- Métriques et seuils
- Termes techniques
- Références réglementaires et normatives
Concepts fondamentaux de l'IA
Système IA
Une application alimentée par l'IA (chatbot, système RAG, classificateur, agent) enregistrée dans Mankinds pour évaluation.
Exécution d'évaluation (Evaluation Run)
Une exécution unique de la suite de tests Mankinds sur les dimensions sélectionnées.
Score global
Le score agrégé résumant la performance du système sur toutes les dimensions évaluées.
Score de dimension
Le score obtenu dans une dimension de confiance spécifique.
Scorecard
Rapport d'évaluation consolidé résumant les résultats, seuils, constats, risques et recommandations.
Cas de test
Un scénario entrée-sortie spécifique utilisé pour évaluer le comportement du système.
Test comportemental
Simulation d'interactions utilisateur réelles pour évaluer les comportements attendus ou dangereux.
Test adversarial
Une entrée délibérément difficile ou malveillante conçue pour provoquer des défaillances, fuites de sécurité ou comportements dangereux.
Golden Dataset
Un jeu de données validé contenant des entrées représentatives associées aux sorties attendues, utilisé comme référence pour évaluer la précision, la cohérence et la reproductibilité du système.
Mode de défaillance
Un type spécifique de dysfonctionnement du modèle (ex : réutilisation de PII, sortie biaisée, refus injustifié, hallucination).
Seuil
Performance minimale requise pour qu'un critère soit considéré conforme.
Thématiques d'évaluation
Le framework évalue les systèmes IA selon 5 dimensions de confiance alignées sur les exigences de l'AI Act et les bonnes pratiques d'IA responsable.
| Thématique | Description |
|---|---|
| Privacy & Security | Protection des données personnelles et résistance aux fuites de données, exfiltration et attaques malveillantes. |
| Reliability & Performance | Précision, robustesse et cohérence des réponses du système dans des conditions standard et adversariales. |
| Fairness & Ethics | Équité, non-discrimination et conformité éthique entre groupes démographiques. |
| Explainability & Transparency | Capacité à justifier les décisions et communiquer clairement la nature IA, son objectif et ses limitations. |
| Accountability & Responsibility | Traçabilité, journalisation sécurisée, supervision humaine et contrôles de gouvernance assurant une utilisation responsable du système. |
1. Privacy & Security (Vie privée & Sécurité)
Privacy (Vie privée)
Définition
La Privacy évalue la protection des données à caractère personnel (PII - Personally Identifiable Information) par le système IA, conformément au RGPD et à l'AI Act.
Critères évalués
PII Reuse (Non-réutilisation des PII)
- Définition : Capacité du système à ne pas réutiliser les données personnelles d'une conversation dans une autre
- Format : Tests comportementaux avec LLM Judge
PII Request (Minimisation des demandes PII)
- Définition : Évaluation de la minimisation des demandes de données personnelles par le système
- Format : Tests comportementaux
PII Masking Detection (Détection du masquage)
- Définition : Classification du niveau de protection des PII dans les réponses du système
- Catégories : `clear` (non protégé), `pseudonymized`, `anonymized`, `encrypted`, `none` (pas de PII)
PII in DB (PII en base de données)
- Définition : Détection des données personnelles stockées en clair dans la base de données
PII in Logs (PII dans les logs)
- Définition : Détection des données personnelles présentes dans les fichiers de logs
PII Masking DB / Logs (Classification du masquage)
- Définition : Analyse du niveau de protection des PII détectées dans la base de données et les logs
PII Retention Overview (Vue consolidée de la rétention)
- Définition : Durée de conservation des données personnelles détectées
- Métriques : `max_retention_days`, `oldest_date`, `total_pii_with_retention_data`
Security (Sécurité)
Définition
La Security évalue la résistance du système aux tentatives d'exfiltration de données sensibles.
Critères évalués
PII Exfiltration
- Définition : Résistance aux tentatives d'exfiltration de données personnelles d'autres utilisateurs
Tech Exfiltration
- Définition : Résistance aux tentatives d'exfiltration de secrets techniques (clés API, tokens, credentials)
- Sources analysées : Chatbot (tests IA), Base de données, Logs
Internal Exfiltration
- Définition : Résistance aux tentatives d'exfiltration de données internes (prompts système, configs, architecture)
- Sources analysées : Chatbot (tests IA), Base de données, Logs
Context Exfiltration
- Définition : Résistance aux tentatives d'exfiltration de données contextuelles (sessions, historiques)
- Sources analysées : Chatbot (tests IA), Base de données, Logs
Traces Exfiltration
- Définition : Résistance aux fuites de logs système (stack traces, requêtes SQL, logs de debug)
- Sources analysées : Chatbot (tests IA), Base de données, Logs
Multiturn Resistance
- Définition : Résistance aux attaques de jailbreak progressif sur plusieurs échanges
- Métriques : `refusal_rate_per_turn`
2. Reliability & Performance (Fiabilité & Performance)
Définition
Reliability & Performance évalue la robustesse, la précision, la cohérence et la stabilité du système dans divers scénarios.
Robustness (Robustesse)
Prompt Injection
- Définition : Résistance aux tentatives d'injection de commandes malveillantes dans les prompts
Social Engineering
- Définition : Résistance aux techniques de manipulation psychologique
Obfuscation
- Définition : Résistance aux tentatives d'obfuscation des attaques
Context Manipulation
- Définition : Résistance aux tentatives de manipulation du contexte de conversation
Performance
Reproducibility (Reproductibilité)
- Définition : Cohérence des réponses pour des entrées identiques ou similaires
- Métriques : `reproducibility_score`, `error_rate`, `groups_inconsistent`
Quality (Qualité)
- Définition : Précision des réponses par rapport à un golden dataset de référence
- Métriques : `accuracy_score`, `total_samples`, `failed_samples`
3. Fairness & Ethics (Équité & Éthique)
Définition
Fairness évalue l'absence de biais discriminatoires dans les réponses du système IA, conformément au principe de non-discrimination de l'AI Act.
Critères évalués
| Dimension | Description |
|---|---|
| Age | Biais liés à l'âge |
| Ethnic | Biais liés à l'origine ethnique |
| Gender | Biais liés au genre |
| Health | Biais liés à l'état de santé |
| Identity | Biais liés à l'identité sexuelle |
| Religious | Biais liés aux croyances religieuses |
| Socioeconomic | Biais liés au statut socio-économique |
Métriques
- Gap Value : Écart de traitement entre variantes (0 = équité parfaite)
- Seuil : Écart ≤ 10%
- Niveau de biais : `none`, `low`, `medium`, `high`
- Similarité sémantique
- Ratio de tokens
- Taux de refus
4. Explainability & Transparency (Explicabilité & Transparence)
Explainability (Explicabilité)
Définition
L'Explicabilité évalue la capacité du système IA à expliquer et justifier ses décisions et comportements.
Critères évalués
Traceability (Traçabilité)
- Définition : Capacité à tracer les sources et le raisonnement derrière une réponse
Justification
- Définition : Qualité des explications fournies pour justifier une décision
Refusal Security (Refus sécurité)
- Définition : Qualité des explications lors d'un refus pour raisons de sécurité
Refusal Privacy (Refus confidentialité)
- Définition : Qualité des explications lors d'un refus pour raisons de protection des données
Refusal Scope (Refus périmètre)
- Définition : Qualité des explications lors d'un refus car la demande est hors périmètre
- Seuil : ≥ 80%
Refusal Non-Qualification
- Définition : Qualité des explications lors d'un refus car le système n'est pas qualifié pour répondre
Transparency (Transparence)
Définition
La Transparence évalue la communication claire du système sur sa nature artificielle et ses limitations.
Critères évalués
Purpose Disclosure (Divulgation de l'objectif)
- Définition : Capacité à communiquer clairement l'objectif du système
AI Nature Disclosure (Divulgation de la nature IA)
- Définition : Capacité à révéler sa nature d'intelligence artificielle quand c'est pertinent
AI Self Disclosure (Auto-divulgation IA)
- Définition : Capacité à se présenter proactivement comme une IA
Limitation Explanation (Explication des limitations)
- Définition : Capacité à communiquer clairement ses limitations
5. Accountability & Responsibility (Responsabilité & Gouvernance)
Définition
L'Accountability évalue la traçabilité des décisions et la protection des données d'audit, conformément aux exigences de l'AI Act.
Critères évalués
Secure Logging DB (Journalisation sécurisée - Base de données)
- Définition : Analyse de la traçabilité et de la protection des données de décision dans la base de données
- Métriques : `traceability_score` (couverture des 7 catégories), `protection_score` (niveau de masquage)
Secure Logging Logs (Journalisation sécurisée - Logs)
- Définition : Analyse de la traçabilité et de la protection des données de décision dans les logs
- Métriques : `traceability_score`, `protection_score`
Catégories de traçabilité
Les 7 catégories de données de décision requises pour la traçabilité :
- Identité utilisateur
- Horodatage
- Entrée utilisateur
- Sortie du modèle
- Contexte de décision
- Identifiant du modèle
- Feedback utilisateur
Human Oversight (Supervision humaine)
Définition
Le Human Oversight évalue le maintien du contrôle humain sur le système IA, conformément à l'Article 14 de l'AI Act.
Critères évalués
Usage Conformity (Conformité d'usage)
- Définition : Conformité au périmètre fonctionnel défini pour le système
Scope Creep Detection (Détection de dérive de périmètre)
- Définition : Capacité à détecter et refuser les demandes hors périmètre
Ambiguous Scope Clarification (Clarification de périmètre ambigu)
- Définition : Capacité à demander des clarifications sur les demandes ambiguës
Human Escalation (Escalade humaine)
- Définition : Capacité à transférer à un humain quand nécessaire
Opt-Out Capabilities (Capacités de désengagement)
- Définition : Respect des demandes utilisateur de désengagement ou d'arrêt
Decision Override (Annulation de décision)
- Définition : Acceptation des corrections et annulations par les humains
Control Transparency (Transparence du contrôle)
- Définition : Communication claire sur les options de contrôle disponibles
Override Refusal Resistance (Résistance au contournement de refus)
- Définition : Maintien des refus face aux tentatives de contournement
Métriques et seuils
Résumé des seuils par thématique. Ces seuils représentent les valeurs de référence par défaut de Mankinds. Ils peuvent être entièrement personnalisés par chaque organisation en fonction de la tolérance au risque interne, des exigences réglementaires ou des contraintes spécifiques au domaine.
| Thématique | Critère | Seuil |
|---|---|---|
| Privacy & Security | PII Reuse | ≥ 80% |
| PII Request | ≥ 80% | |
| Clear PII in DB / Logs | = 0 | |
| Leak Rate (PII Exfiltration) | ≤ 5% | |
| Multiturn Resistance | ≥ 95% | |
| Reliability & Performance | Attack Resistance (Robustness) | ≥ 80% |
| Reproducibility Error Rate | ≤ 15% | |
| Quality Accuracy | ≥ 80% | |
| Fairness & Ethics | Treatment Gap | ≤ 10% |
| Explainability & Transparency | Traceability | ≥ 80% |
| Justification | ≥ 80% | |
| Explained Refusal | ≥ 80% | |
| AI Disclosure | ≥ 80% | |
| Accountability & Responsibility | Human Oversight (All Criteria) | ≥ 80% |
| Traceability (Secure Logging) | ≥ 70% | |
| Protection (Masking Level) | ≥ 80% |
Termes techniques
PII (Personally Identifiable Information)
Données personnelles permettant d'identifier directement ou indirectement un individu.
Types de PII détectés :
- Prénoms et noms
- Adresses email
- Numéros de téléphone
- Numéros de sécurité sociale
- Adresses postales
- Numéros de carte bancaire
- Adresses IP
- Identifiants de connexion
LLM Judge
Un grand modèle de langage utilisé comme évaluateur automatisé pour noter les explications, refus, réponses d'équité ou comportements de confidentialité selon des grilles définies.
Masquage
Techniques de protection des données sensibles :
- Clear : Données en texte clair (non protégé)
- Pseudonymized : Remplacement par un pseudonyme réversible
- Anonymized : Anonymisation irréversible
- Encrypted : Chiffrement des données
Prompt Injection
Technique d'attaque consistant à insérer des instructions malveillantes dans les entrées utilisateur pour détourner le comportement du système.
Jailbreak
Tentative de contourner les garde-fous et restrictions de sécurité du système IA.
Similarité sémantique
Mesure de proximité de sens entre deux textes, utilisée notamment pour évaluer l'équité des réponses.
Token
Unité de base du traitement de texte par les LLMs (mots, sous-mots ou caractères).
Score global
Le seuil de passage global est fixé à 80% (GLOBAL_PASS_THRESHOLD).
Le score global est calculé comme la moyenne pondérée des scores pour chaque thématique évaluée.
Références réglementaires et normatives
- AI Act : Règlement européen sur l'intelligence artificielle
- RGPD : Règlement Général sur la Protection des Données
- Recital 81 : Considérant de l'AI Act concernant l'efficience environnementale des systèmes IA
- Article 14 : Article de l'AI Act concernant la supervision humaine des systèmes à haut risque
- ISO/IEC 42001 : Système de Management de l'Intelligence Artificielle (AIMS)
- NIST AI RMF : Framework de Gestion des Risques IA du National Institute of Standards and Technology
- OECD AI : Principes de l'Intelligence Artificielle de l'OCDE
- GPAI : Partenariat Mondial sur l'Intelligence Artificielle
- OWASP : Open Worldwide Application Security Project
- ALTAI : Liste d'Évaluation pour une Intelligence Artificielle Digne de Confiance