What question did this study set out to answer?

L'objectif central est de présenter une méthode pour évaluer la conformité des systèmes d'IA aux spécifications comportementales explicites.

March 15, 2026Open Access

Tests de conformité aux spécifications pour les systèmes d'IA conversationnels : Preuves lisibles par machine pour l'évaluation de conformité à la loi sur l'IA de l'UE

Key Points

L'objectif central est de présenter une méthode pour évaluer la conformité des systèmes d'IA aux spécifications comportementales explicites.
Développement du Cadre de Profilage des Spécifications (CPS) pour les tests de conformité aux spécifications.
Évaluation des systèmes d'IA en appliquant un protocole à deux tours pour évaluer huit contraintes comportementales.
Validation de la méthodologie en utilisant quatre systèmes d'IA commerciaux.
Les niveaux de conformité variaient largement entre les systèmes, de 0/8 à 6/8 contraintes.
Identification d'une anomalie de renversement de spécification indiquant des défaillances structurelles non évidentes par scoring scalaire.
Les artefacts de preuve produits sont structurés au format JSON, répondant aux exigences de la loi sur l'IA de l'UE.

Abstract

Les méthodes existantes pour évaluer le comportement de l'IA confondent la mesure de la personnalité avec la conformité aux spécifications. Cet article présente le Cadre de Profilage des Spécifications (CPS), une méthode de vérification de spécifications qui produit des preuves lisibles par machine de la conformité des résultats observables d'un système d'IA à une spécification comportementale explicite. Le CPS évalue les systèmes selon huit contraintes comportementales en utilisant un protocole à deux tours qui isole les effets de spécification du comportement de base. La validation de la méthodologie avec quatre systèmes d'IA commerciaux révèle une variation significative par système : la conformité varie de 0/8 à 6/8 contraintes. Une anomalie de renversement de spécification (D8 DomainStrictness) démontre que l'évaluation séparée multidimensionnelle révèle des défaillances structurelles invisibles par scoring scalaire. Tous les artefacts de preuve sont structurés (JSON), reproductibles et cartographiés aux exigences d'évaluation de conformité de la loi sur l'IA de l'UE (Annexe A).

Tests de conformité aux spécifications pour les systèmes d'IA conversationnels : Preuves lisibles par machine pour l'évaluation de conformité à la loi sur l'IA de l'UE

Key Points

Abstract

Cite This Study

Also Consider

Also Consider