Les méthodes existantes pour évaluer le comportement de l'IA confondent la mesure de la personnalité avec la conformité aux spécifications. Cet article présente le Cadre de Profilage des Spécifications (CPS), une méthode de vérification de spécifications qui produit des preuves lisibles par machine de la conformité des résultats observables d'un système d'IA à une spécification comportementale explicite. Le CPS évalue les systèmes selon huit contraintes comportementales en utilisant un protocole à deux tours qui isole les effets de spécification du comportement de base. La validation de la méthodologie avec quatre systèmes d'IA commerciaux révèle une variation significative par système : la conformité varie de 0/8 à 6/8 contraintes. Une anomalie de renversement de spécification (D8 DomainStrictness) démontre que l'évaluation séparée multidimensionnelle révèle des défaillances structurelles invisibles par scoring scalaire. Tous les artefacts de preuve sont structurés (JSON), reproductibles et cartographiés aux exigences d'évaluation de conformité de la loi sur l'IA de l'UE (Annexe A).
Kafkas M. Caprazli (Fri,) a étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: