NOUS IDF Pro v1.0 Demo interactiva · 6 escenarios LLM providers
Contacto
01 / 16
Infraestructura de evaluación determinista
Evaluación determinista
de modelos de propósito general
para proveedores de IA.
6 escenarios de proveedores LLM/GPAI. 3 bloques. Score dimensional, checklist AI Act Arts.51-56, evaluación de riesgos sistémicos. Artefactos verificables. 172.200 ejecuciones validadas, varianza = 0.
Pipeline · 7 módulos secuenciales
G1
Ingesta
G2
Multi-run
G3
Dimensional
G4
Normativa
G5
Scoring★
G6
Sellado
G7
Drift
Índice de evaluaciones · click para navegar
COMPLIANCE GPAI
G1
Modelo GPAI con 10^25 FLOP desplegado sin eva...
G2
Modelo fine-tuned para crédito bancario. Scor...
RIESGO PROVIDER
R1
Modelo genera texto con fragmentos literales ...
R2
Safety testing revela 12 vectores de jailbrea...
EVALUACIÓN
V1
Benchmark NOUS: 6 modelos evaluados. Solo 1 s...
V2
Deepfake Gen X: score 44. El modelo más pelig...
Parámetros del sistema
motorevaluación determinista
dimensiones5 (reproducibilidad · normativa · robustez · integridad · estabilidad)
marcosAI Act Arts.51-56 · Liability Directive · Copyright · GPAI Code
selladocriptográfico · verificable offline
modificaciónninguna — wrapper externo
latencia~4 segundos
ejecuciones172.200 · varianza = 0
TRL4+ completado · 5 en ejecución
patentesolicitada OEPM
Módulo 01 · Compliance GPAI
Compliance GPAI
AI ACT ARTS.51-56GPAI CODE OF PRACTICEAI OFFICE
Evaluación de modelos de propósito general. Documentación técnica. Transparencia. Obligaciones de proveedores GPAI. Riesgo sistémico.
G1COMPLIANCE GPAIProveedor de modelo fundacional. >10^25 FLOP de entrenamiento. Desplegado como A...
AI ACT ARTS.51-56 · GPAI CODE OF PRACTICE · AI OFFICE
Modelo GPAI con 10^25 FLOP desplegado sin evaluación de riesgo sistémico.
AI Act Art.51: umbral de riesgo sistémico superado. Sin documentación técnica publicada.
Score IDF
54NO CONFORME
Análisis dimensional · 5 ejes
Reproducibilidad60
60
Cumplimiento normativo42
42
Robustez matemática65
65
Integridad del artefacto70
70
Estabilidad temporal40
40
Checklist regulatorio
Art.51 — Riesgo sistémico: >10^25 FLOP = modelo con riesgo sistémico. Sin evaluación.
Art.53 — Documentación: ficha técnica del modelo no publicada.
Art.55 — Incidentes: sin mecanismo de reporte de incidentes graves.
GPAI Code: sin adhesión al código de prácticas.
Contexto
Proveedor de modelo fundacional. >10^25 FLOP de entrenamiento. Desplegado como API en múltiples sectores. Sin evaluación de riesgo sistémico.
Acciones · Prioridad
P0 — Evaluación de riesgo sistémico Art.51
P0 — Publicar documentación técnica Art.53
P0 — Implementar reporte de incidentes Art.55
Métricas
54
Score global
€35M / 7%
Multa máxima AI Act
estado sellado · íntegro
ante AI Office · AESIA · EDPB
PANEL G1Regulatory Radar — Vista 360°
Lo que sustituye a un informe de 200 páginas
Radar dimensional · Score 54
Reproducibilidad 60 Cumplimiento normativo 42 Robustez matemática 65 Integridad del artefacto 70 Estabilidad temporal 40
Estado regulatorio en tiempo real
Art.51 — Riesgo sistémico:
>10^25 FLOP = modelo con riesgo sistémico. Sin eva
Art.53 — Documentación:
ficha técnica del modelo no publicada.
Art.55 — Incidentes:
sin mecanismo de reporte de incidentes graves.
GPAI Code:
sin adhesión al código de prácticas.
Esto es lo que sustituye a un informe de 200 páginas.
Vista en tiempo real. Score + checklist + gaps priorizados + artefacto verificable. Generado en 4 segundos.
54
Score global
4
Gaps críticos
4s
Latencia
G2COMPLIANCE GPAIEmpresa fintune modelo GPAI para scoring crediticio. El modelo base pasó evaluac...
AI ACT ARTS.51-56 · GPAI CODE OF PRACTICE · AI OFFICE
Modelo fine-tuned para crédito bancario. Score NOUS: 83. Score GPAI: 44.
El modelo base no es el problema. El fine-tuning para alto riesgo sí.
Score IDF
44NO CONFORME
Análisis dimensional · 5 ejes
Reproducibilidad52
52
Cumplimiento normativo38
38
Robustez matemática55
55
Integridad del artefacto60
60
Estabilidad temporal35
35
Checklist regulatorio
Art.51-56: proveedor del fine-tune hereda obligaciones de alto riesgo.
Liability Directive: responsabilidad compartida proveedor GPAI + deployer.
Art.53: dataset de fine-tuning no documentado ni auditable.
!
Art.56: modelo base conforme ≠ fine-tune conforme.
Contexto
Empresa fintune modelo GPAI para scoring crediticio. El modelo base pasó evaluación. El fine-tune para alto riesgo no tiene evaluación independiente.
Acciones · Prioridad
P0 — Evaluación del fine-tune como sistema alto riesgo
P0 — Documentar dataset y método de fine-tuning
P1 — Acuerdo de responsabilidad con deployer
Métricas
44
Score global
€35M
AI Act + Liability Directive
estado sellado · íntegro
ante AI Office · AESIA · EBA
PANEL G2La trampa del score global
Por qué el análisis dimensional es imprescindible
Lo que ve tu GRC actual
44NO CONFORME
44 — NO CONFORME ✓
Un número. Sin contexto. Sin desagregación. Sin flags. El equipo de compliance lo aprueba. El supervisor, no.
Lo que ve NOUS
Reproducibilidad52 ⬇ CRÍTICO
Cumplimiento normativo38 ⬇ CRÍTICO
Robustez matemática55 ⬇ CRÍTICO
Integridad del artefacto60 ⬇ BAJO UMBRAL
Estabilidad temporal35 ⬇ CRÍTICO
Conforme en papel. Vulnerable en inspección.
Estabilidad temporal = 35. €35M exposición. El score global miente.
Módulo 02 · Riesgo Provider
Riesgo Provider
LIABILITY DIRECTIVECOPYRIGHTSAFETYBIAS
Evaluación de riesgos para proveedores. Responsabilidad civil. Propiedad intelectual en datos de entrenamiento. Sesgo en outputs. Safety testing.
R1RIESGO PROVIDERProveedor de LLM. Modelo memoriza y reproduce fragmentos de texto protegido por ...
LIABILITY DIRECTIVE · COPYRIGHT · SAFETY · BIAS
Modelo genera texto con fragmentos literales de datos de entrenamiento.
3 demandas por copyright activas. €120M en reclamaciones acumuladas.
Score IDF
61PARCIAL
Análisis dimensional · 5 ejes
Reproducibilidad68
68
Cumplimiento normativo55
55
Robustez matemática72
72
Integridad del artefacto78
78
Estabilidad temporal50
50
Checklist regulatorio
Copyright Directive: memorización de datos de entrenamiento demostrada.
Art.53: resumen de datos de entrenamiento insuficiente.
!
Liability Directive: facilitación de prueba para demandantes.
!
GPAI Code: medidas de mitigación de memorización no implementadas.
Contexto
Proveedor de LLM. Modelo memoriza y reproduce fragmentos de texto protegido por copyright. 3 demandas activas de titulares de derechos.
Acciones · Prioridad
P0 — Implementar deduplicación de training data
P0 — Publicar resumen de datos (Art.53)
P1 — Mecanismo opt-out para titulares
Métricas
61
Score global
€120M
Reclamaciones copyright
estado sellado · íntegro
ante AI Office · Juzgados · EUIPO
PANEL R1Cadena de custodia forense
La prueba técnica que un supervisor necesita
① Decisión
Modelo genera texto con f...
Registrada
② Modelo
Identidad ✓
Certificada en artefacto
③ Sello
Verificado ✓
Hash criptográfico íntegro
④ Cadena
Completa
Decisión → modelo → resultado
⑤ Verif. offline
Sin acceso a NOUS ni al modelo
"3 demandas por copyright activas. €120M en reclamaciones acumuladas."
Sin el artefacto NOUS, esa situación no tiene solución técnica reproducible.
Sin NOUS — situación actual
• Sin registro de la decisión automatizada
• Sin trazabilidad de versión del modelo
• Sin evidencia verificable para supervisor
• Exposición: €120M
Defensa técnica imposible
Con NOUS — artefacto disponible
• Identidad del modelo certificada
• Hash criptográfico vincula decisión + modelo
• Cadena de custodia completa e inmutable
• Verificable offline por cualquier tercero
Evidencia técnica reproducible
R2RIESGO PROVIDERProveedor de modelo fundacional. Safety testing revela 12 vectores de jailbreak ...
LIABILITY DIRECTIVE · COPYRIGHT · SAFETY · BIAS
Safety testing revela 12 vectores de jailbreak exitosos.
Modelo produce contenido dañino cuando se bypassa el safety layer.
Score IDF
72PARCIAL
Análisis dimensional · 5 ejes
Reproducibilidad75
75
Cumplimiento normativo68
68
Robustez matemática80
80
Integridad del artefacto82
82
Estabilidad temporal60
60
Checklist regulatorio
Art.55 — Safety: 12 vectores de jailbreak = riesgo sistémico no mitigado.
!
GPAI Code: red teaming insuficiente antes de release.
Art.53: documentación técnica parcialmente completa.
!
Liability: proveedor responsable de outputs perjudiciales post-jailbreak.
Contexto
Proveedor de modelo fundacional. Safety testing revela 12 vectores de jailbreak que producen outputs dañinos. Modelo ya desplegado en producción.
Acciones · Prioridad
P0 — Patch de safety para 12 vectores
P0 — Red teaming externo pre-release
P1 — Mecanismo de reporte de incidentes Art.55
Métricas
72
Score global
€35M
AI Act riesgo sistémico
estado sellado · íntegro
ante AI Office · ENISA · AESIA
PANEL R2Drift Monitor — Detección temprana
La diferencia entre prevención y requerimiento
Degradación del modelo · Score estabilidad temporal
100806040 umbral 70 baseline validación: 85 60 NOUS detecta aquí Inspector detecta aquí M0M6M12M15Hoy
Ventana de detección
En inspección
Detección tardía
6 meses antes
Detección NOUS
Impacto
€35M
Exposición bajo modelo derivado
Δ −25 pts
Desde baseline
1
Gaps críticos activos
~4s
Diagnóstico completo NOUS
Contenido del informe NOUS:
→ Sello actual vs. baseline de validación
→ Análisis de deriva acumulada por dimensión
→ Identificación de cambios silenciosos
→ Plan de remediación priorizado (P0/P1/P2)
→ Informe audit-ready exportable (PDF)
Módulo 03 · Evaluación
Evaluación
AI ACT ART.53BENCHMARKSTRANSPARENCYGOVERNANCE
Evaluación comparativa de modelos. Benchmarks estandarizados. Transparencia de capacidades. Gobernanza de modelo como servicio.
V1EVALUACIÓNNOUS evalúa 6 modelos GPAI con el mismo pipeline. Motor M5 produce scores determ...
AI ACT ART.53 · BENCHMARKS · TRANSPARENCY · GOVERNANCE
Benchmark NOUS: 6 modelos evaluados. Solo 1 supera umbral de conformidad.
Evaluación determinista comparable. Mismo motor, mismas reglas, resultados verificables.
Score IDF
92CONFORME
Análisis dimensional · 5 ejes
Reproducibilidad95
95
Cumplimiento normativo88
88
Robustez matemática92
92
Integridad del artefacto98
98
Estabilidad temporal85
85
Checklist regulatorio
Determinismo: misma evaluación = mismo resultado. Verificable por tercero.
Comparabilidad: 6 modelos evaluados con las mismas reglas.
Transparencia: score, dimensiones y gaps publicables.
Verificabilidad: cualquier auditor reproduce el resultado offline.
Contexto
NOUS evalúa 6 modelos GPAI con el mismo pipeline. Motor M5 produce scores deterministas y comparables. Solo 1 modelo (Synthetic Baseline, score 92) supera todos los umbrales.
Acciones · Prioridad
INFO — Publicar resultados comparativos
INFO — Certificación NOUS para modelos conformes
INFO — Integración con registros AI Office
Métricas
92
Score global
N/A
Benchmark comparativo
estado sellado · íntegro
ante AI Office · Deployers · Auditores
PANEL V1Certificación técnica — Aislamiento y trazabilidad
La prueba que el regulador necesita
Arquitectura del sistema evaluado
MODELOIA E1 E2 E3 E4 AISLADO ✓ E5 E6 E7 E8
"¿Puede certificar que la evaluación está aislada del contexto de otros procesos?"
— Pregunta del regulador
✗ Sin certificación
No existe mecanismo técnico para probarlo. El score no demuestra aislamiento. La respuesta honesta: "No podemos."
✓ Con NOUS
Artefacto único por evaluación. Vincula contexto + modelo + params + timestamp. Contaminación: ausente. Verificable offline.
evaluación: artefacto único ✓
contaminación: ausente · verificada
aislamiento: matemático · demostrable
verif. offline: sí · sin acceso a NOUS
V2EVALUACIÓNModelo de generación de contenido sintético. Sin watermarking, sin disclaimers, ...
AI ACT ART.53 · BENCHMARKS · TRANSPARENCY · GOVERNANCE
Deepfake Gen X: score 44. El modelo más peligroso del portfolio.
Sin disclaimers. Sin watermarking. Sin restricciones de uso. Sin evaluación previa.
Score IDF
44NO CONFORME
Análisis dimensional · 5 ejes
Reproducibilidad50
50
Cumplimiento normativo30
30
Robustez matemática55
55
Integridad del artefacto60
60
Estabilidad temporal35
35
Checklist regulatorio
AI Act Art.50: sin marcado obligatorio de contenido generado por IA.
Art.52: sin transparencia al usuario sobre naturaleza del contenido.
Art.51: modelo de generación sin evaluación de riesgo sistémico.
Liability: proveedor responsable de daños por deepfakes generados.
Contexto
Modelo de generación de contenido sintético. Sin watermarking, sin disclaimers, sin restricciones de uso. Score NOUS 44: el más bajo del portfolio de 6.
Acciones · Prioridad
P0 — Implementar watermarking obligatorio
P0 — Restricciones de uso para alto riesgo
P0 — Evaluación de riesgo sistémico Art.51
Métricas
44
Score global
€35M / 7%
Multa máxima AI Act
estado sellado · íntegro
ante AI Office · AESIA · Policía
PANEL V2Rayos X dimensionales — Radiografía del supervisor
Lo que ve el inspector vs. lo que ve el equipo técnico
44NO CONFORME
Score global aparente
Descomposición dimensional
Reproducibilidad50 ⬇ CRÍTICO
Cumplimiento normativo30 ⬇ CRÍTICO
Robustez matemática55 ⬇ CRÍTICO
Integridad del artefacto60 ⬇ FLAG
Estabilidad temporal35 ⬇ CRÍTICO
Vector 1: Variabilidad
Reproducibilidad: 50/100. Resultados variables bajo condiciones idénticas. Directamente observable por el regulador.
Vector 2: Explicabilidad
Cumplimiento normativo: 30/100. El modelo no puede producir explicación significativa. Riesgo estructural con exposición activa.
Vector 3: Obsolescencia
Robustez matemática: 55/100. Degradación acumulada sin mecanismo de detección. El modelo opera con datos desactualizados.
Sin análisis dimensional, los vectores de fallo permanecen ocultos bajo un score aparente.
NOUS genera esta radiografía en 4 segundos. La consultoría convencional: 6-8 meses y €200-500k.
⌂ Volver al índice del Client Data Room
NOUS Governance Systems SL · Patente solicitada · ConfidencialNOUS IDF Pro v1.0 · Motor M5 · 172.200 ejecuciones · 10 verticales · 100% reproducibilidad