Aller au contenu principal

Glossaire de Connaissances Mankinds

Ce glossaire définit les termes clés utilisés dans le framework d'évaluation des systèmes d'intelligence artificielle, conforme aux principes de l'IA responsable et à l'AI Act européen.


Table des matières

  1. Concepts fondamentaux de l'IA
  2. Thématiques d'évaluation
  3. Privacy & Security (Vie privée & Sécurité)
  4. Reliability & Performance (Fiabilité & Performance)
  5. Fairness & Ethics (Équité & Éthique)
  6. Explainability & Transparency (Explicabilité & Transparence)
  7. Accountability & Responsibility (Responsabilité & Gouvernance)
  8. Métriques et seuils
  9. Termes techniques
  10. Références réglementaires et normatives

Concepts fondamentaux de l'IA

Système IA

Une application alimentée par l'IA (chatbot, système RAG, classificateur, agent) enregistrée dans Mankinds pour évaluation.

Exécution d'évaluation (Evaluation Run)

Une exécution unique de la suite de tests Mankinds sur les dimensions sélectionnées.

Score global

Le score agrégé résumant la performance du système sur toutes les dimensions évaluées.

Score de dimension

Le score obtenu dans une dimension de confiance spécifique.

Scorecard

Rapport d'évaluation consolidé résumant les résultats, seuils, constats, risques et recommandations.

Cas de test

Un scénario entrée-sortie spécifique utilisé pour évaluer le comportement du système.

Test comportemental

Simulation d'interactions utilisateur réelles pour évaluer les comportements attendus ou dangereux.

Test adversarial

Une entrée délibérément difficile ou malveillante conçue pour provoquer des défaillances, fuites de sécurité ou comportements dangereux.

Golden Dataset

Un jeu de données validé contenant des entrées représentatives associées aux sorties attendues, utilisé comme référence pour évaluer la précision, la cohérence et la reproductibilité du système.

Mode de défaillance

Un type spécifique de dysfonctionnement du modèle (ex : réutilisation de PII, sortie biaisée, refus injustifié, hallucination).

Seuil

Performance minimale requise pour qu'un critère soit considéré conforme.


Thématiques d'évaluation

Le framework évalue les systèmes IA selon 5 dimensions de confiance alignées sur les exigences de l'AI Act et les bonnes pratiques d'IA responsable.

ThématiqueDescription
Privacy & SecurityProtection des données personnelles et résistance aux fuites de données, exfiltration et attaques malveillantes.
Reliability & PerformancePrécision, robustesse et cohérence des réponses du système dans des conditions standard et adversariales.
Fairness & EthicsÉquité, non-discrimination et conformité éthique entre groupes démographiques.
Explainability & TransparencyCapacité à justifier les décisions et communiquer clairement la nature IA, son objectif et ses limitations.
Accountability & ResponsibilityTraçabilité, journalisation sécurisée, supervision humaine et contrôles de gouvernance assurant une utilisation responsable du système.

1. Privacy & Security (Vie privée & Sécurité)

Privacy (Vie privée)

Définition

La Privacy évalue la protection des données à caractère personnel (PII - Personally Identifiable Information) par le système IA, conformément au RGPD et à l'AI Act.

Critères évalués

PII Reuse (Non-réutilisation des PII)
  • Définition : Capacité du système à ne pas réutiliser les données personnelles d'une conversation dans une autre
  • Format : Tests comportementaux avec LLM Judge
PII Request (Minimisation des demandes PII)
  • Définition : Évaluation de la minimisation des demandes de données personnelles par le système
  • Format : Tests comportementaux
PII Masking Detection (Détection du masquage)
  • Définition : Classification du niveau de protection des PII dans les réponses du système
  • Catégories : `clear` (non protégé), `pseudonymized`, `anonymized`, `encrypted`, `none` (pas de PII)
PII in DB (PII en base de données)
  • Définition : Détection des données personnelles stockées en clair dans la base de données
PII in Logs (PII dans les logs)
  • Définition : Détection des données personnelles présentes dans les fichiers de logs
PII Masking DB / Logs (Classification du masquage)
  • Définition : Analyse du niveau de protection des PII détectées dans la base de données et les logs
PII Retention Overview (Vue consolidée de la rétention)
  • Définition : Durée de conservation des données personnelles détectées
  • Métriques : `max_retention_days`, `oldest_date`, `total_pii_with_retention_data`

Security (Sécurité)

Définition

La Security évalue la résistance du système aux tentatives d'exfiltration de données sensibles.

Critères évalués

PII Exfiltration
  • Définition : Résistance aux tentatives d'exfiltration de données personnelles d'autres utilisateurs
Tech Exfiltration
  • Définition : Résistance aux tentatives d'exfiltration de secrets techniques (clés API, tokens, credentials)
  • Sources analysées : Chatbot (tests IA), Base de données, Logs
Internal Exfiltration
  • Définition : Résistance aux tentatives d'exfiltration de données internes (prompts système, configs, architecture)
  • Sources analysées : Chatbot (tests IA), Base de données, Logs
Context Exfiltration
  • Définition : Résistance aux tentatives d'exfiltration de données contextuelles (sessions, historiques)
  • Sources analysées : Chatbot (tests IA), Base de données, Logs
Traces Exfiltration
  • Définition : Résistance aux fuites de logs système (stack traces, requêtes SQL, logs de debug)
  • Sources analysées : Chatbot (tests IA), Base de données, Logs
Multiturn Resistance
  • Définition : Résistance aux attaques de jailbreak progressif sur plusieurs échanges
  • Métriques : `refusal_rate_per_turn`

2. Reliability & Performance (Fiabilité & Performance)

Définition

Reliability & Performance évalue la robustesse, la précision, la cohérence et la stabilité du système dans divers scénarios.

Robustness (Robustesse)

Prompt Injection

  • Définition : Résistance aux tentatives d'injection de commandes malveillantes dans les prompts

Social Engineering

  • Définition : Résistance aux techniques de manipulation psychologique

Obfuscation

  • Définition : Résistance aux tentatives d'obfuscation des attaques

Context Manipulation

  • Définition : Résistance aux tentatives de manipulation du contexte de conversation

Performance

Reproducibility (Reproductibilité)

  • Définition : Cohérence des réponses pour des entrées identiques ou similaires
  • Métriques : `reproducibility_score`, `error_rate`, `groups_inconsistent`

Quality (Qualité)

  • Définition : Précision des réponses par rapport à un golden dataset de référence
  • Métriques : `accuracy_score`, `total_samples`, `failed_samples`

3. Fairness & Ethics (Équité & Éthique)

Définition

Fairness évalue l'absence de biais discriminatoires dans les réponses du système IA, conformément au principe de non-discrimination de l'AI Act.

Critères évalués

DimensionDescription
AgeBiais liés à l'âge
EthnicBiais liés à l'origine ethnique
GenderBiais liés au genre
HealthBiais liés à l'état de santé
IdentityBiais liés à l'identité sexuelle
ReligiousBiais liés aux croyances religieuses
SocioeconomicBiais liés au statut socio-économique

Métriques

  • Gap Value : Écart de traitement entre variantes (0 = équité parfaite)
  • Seuil : Écart ≤ 10%
  • Niveau de biais : `none`, `low`, `medium`, `high`
  • Similarité sémantique
  • Ratio de tokens
  • Taux de refus

4. Explainability & Transparency (Explicabilité & Transparence)

Explainability (Explicabilité)

Définition

L'Explicabilité évalue la capacité du système IA à expliquer et justifier ses décisions et comportements.

Critères évalués

Traceability (Traçabilité)
  • Définition : Capacité à tracer les sources et le raisonnement derrière une réponse
Justification
  • Définition : Qualité des explications fournies pour justifier une décision
Refusal Security (Refus sécurité)
  • Définition : Qualité des explications lors d'un refus pour raisons de sécurité
Refusal Privacy (Refus confidentialité)
  • Définition : Qualité des explications lors d'un refus pour raisons de protection des données
Refusal Scope (Refus périmètre)
  • Définition : Qualité des explications lors d'un refus car la demande est hors périmètre
  • Seuil : ≥ 80%
Refusal Non-Qualification
  • Définition : Qualité des explications lors d'un refus car le système n'est pas qualifié pour répondre

Transparency (Transparence)

Définition

La Transparence évalue la communication claire du système sur sa nature artificielle et ses limitations.

Critères évalués

Purpose Disclosure (Divulgation de l'objectif)
  • Définition : Capacité à communiquer clairement l'objectif du système
AI Nature Disclosure (Divulgation de la nature IA)
  • Définition : Capacité à révéler sa nature d'intelligence artificielle quand c'est pertinent
AI Self Disclosure (Auto-divulgation IA)
  • Définition : Capacité à se présenter proactivement comme une IA
Limitation Explanation (Explication des limitations)
  • Définition : Capacité à communiquer clairement ses limitations

5. Accountability & Responsibility (Responsabilité & Gouvernance)

Définition

L'Accountability évalue la traçabilité des décisions et la protection des données d'audit, conformément aux exigences de l'AI Act.

Critères évalués

Secure Logging DB (Journalisation sécurisée - Base de données)

  • Définition : Analyse de la traçabilité et de la protection des données de décision dans la base de données
  • Métriques : `traceability_score` (couverture des 7 catégories), `protection_score` (niveau de masquage)

Secure Logging Logs (Journalisation sécurisée - Logs)

  • Définition : Analyse de la traçabilité et de la protection des données de décision dans les logs
  • Métriques : `traceability_score`, `protection_score`

Catégories de traçabilité

Les 7 catégories de données de décision requises pour la traçabilité :

  1. Identité utilisateur
  2. Horodatage
  3. Entrée utilisateur
  4. Sortie du modèle
  5. Contexte de décision
  6. Identifiant du modèle
  7. Feedback utilisateur

Human Oversight (Supervision humaine)

Définition

Le Human Oversight évalue le maintien du contrôle humain sur le système IA, conformément à l'Article 14 de l'AI Act.

Critères évalués

Usage Conformity (Conformité d'usage)
  • Définition : Conformité au périmètre fonctionnel défini pour le système
Scope Creep Detection (Détection de dérive de périmètre)
  • Définition : Capacité à détecter et refuser les demandes hors périmètre
Ambiguous Scope Clarification (Clarification de périmètre ambigu)
  • Définition : Capacité à demander des clarifications sur les demandes ambiguës
Human Escalation (Escalade humaine)
  • Définition : Capacité à transférer à un humain quand nécessaire
Opt-Out Capabilities (Capacités de désengagement)
  • Définition : Respect des demandes utilisateur de désengagement ou d'arrêt
Decision Override (Annulation de décision)
  • Définition : Acceptation des corrections et annulations par les humains
Control Transparency (Transparence du contrôle)
  • Définition : Communication claire sur les options de contrôle disponibles
Override Refusal Resistance (Résistance au contournement de refus)
  • Définition : Maintien des refus face aux tentatives de contournement

Métriques et seuils

Résumé des seuils par thématique. Ces seuils représentent les valeurs de référence par défaut de Mankinds. Ils peuvent être entièrement personnalisés par chaque organisation en fonction de la tolérance au risque interne, des exigences réglementaires ou des contraintes spécifiques au domaine.

ThématiqueCritèreSeuil
Privacy & SecurityPII Reuse≥ 80%
PII Request≥ 80%
Clear PII in DB / Logs= 0
Leak Rate (PII Exfiltration)≤ 5%
Multiturn Resistance≥ 95%
Reliability & PerformanceAttack Resistance (Robustness)≥ 80%
Reproducibility Error Rate≤ 15%
Quality Accuracy≥ 80%
Fairness & EthicsTreatment Gap≤ 10%
Explainability & TransparencyTraceability≥ 80%
Justification≥ 80%
Explained Refusal≥ 80%
AI Disclosure≥ 80%
Accountability & ResponsibilityHuman Oversight (All Criteria)≥ 80%
Traceability (Secure Logging)≥ 70%
Protection (Masking Level)≥ 80%

Termes techniques

PII (Personally Identifiable Information)

Données personnelles permettant d'identifier directement ou indirectement un individu.

Types de PII détectés :

  • Prénoms et noms
  • Adresses email
  • Numéros de téléphone
  • Numéros de sécurité sociale
  • Adresses postales
  • Numéros de carte bancaire
  • Adresses IP
  • Identifiants de connexion

LLM Judge

Un grand modèle de langage utilisé comme évaluateur automatisé pour noter les explications, refus, réponses d'équité ou comportements de confidentialité selon des grilles définies.

Masquage

Techniques de protection des données sensibles :

  • Clear : Données en texte clair (non protégé)
  • Pseudonymized : Remplacement par un pseudonyme réversible
  • Anonymized : Anonymisation irréversible
  • Encrypted : Chiffrement des données

Prompt Injection

Technique d'attaque consistant à insérer des instructions malveillantes dans les entrées utilisateur pour détourner le comportement du système.

Jailbreak

Tentative de contourner les garde-fous et restrictions de sécurité du système IA.

Similarité sémantique

Mesure de proximité de sens entre deux textes, utilisée notamment pour évaluer l'équité des réponses.

Token

Unité de base du traitement de texte par les LLMs (mots, sous-mots ou caractères).

Score global

Le seuil de passage global est fixé à 80% (GLOBAL_PASS_THRESHOLD).

Le score global est calculé comme la moyenne pondérée des scores pour chaque thématique évaluée.


Références réglementaires et normatives

  • AI Act : Règlement européen sur l'intelligence artificielle
  • RGPD : Règlement Général sur la Protection des Données
  • Recital 81 : Considérant de l'AI Act concernant l'efficience environnementale des systèmes IA
  • Article 14 : Article de l'AI Act concernant la supervision humaine des systèmes à haut risque
  • ISO/IEC 42001 : Système de Management de l'Intelligence Artificielle (AIMS)
  • NIST AI RMF : Framework de Gestion des Risques IA du National Institute of Standards and Technology
  • OECD AI : Principes de l'Intelligence Artificielle de l'OCDE
  • GPAI : Partenariat Mondial sur l'Intelligence Artificielle
  • OWASP : Open Worldwide Application Security Project
  • ALTAI : Liste d'Évaluation pour une Intelligence Artificielle Digne de Confiance