NOUS IDF Pro · Demo LLM/GPAI Providers

Infraestructura de evaluación determinista

Evaluación determinista
de modelos de propósito general
para proveedores de IA.

6 escenarios de proveedores LLM/GPAI. 3 bloques. Score dimensional, checklist AI Act Arts.51-56, evaluación de riesgos sistémicos. Artefactos verificables. 172.200 ejecuciones validadas, varianza = 0.

Pipeline · 7 módulos secuenciales

G1

Ingesta

G2

Multi-run

G3

Dimensional

G4

Normativa

G5

Scoring★

G6

Sellado

G7

Drift

Índice de evaluaciones · click para navegar

COMPLIANCE GPAI

G1

Modelo GPAI con 10^25 FLOP desplegado sin eva...

G2

Modelo fine-tuned para crédito bancario. Scor...

RIESGO PROVIDER

R1

Modelo genera texto con fragmentos literales ...

R2

Safety testing revela 12 vectores de jailbrea...

EVALUACIÓN

V1

Benchmark NOUS: 6 modelos evaluados. Solo 1 s...

V2

Deepfake Gen X: score 44. El modelo más pelig...

Parámetros del sistema

motor	evaluación determinista
dimensiones	5 (reproducibilidad · normativa · robustez · integridad · estabilidad)
marcos	AI Act Arts.51-56 · Liability Directive · Copyright · GPAI Code
sellado	criptográfico · verificable offline
modificación	ninguna — wrapper externo
latencia	~4 segundos
ejecuciones	172.200 · varianza = 0
TRL	4+ completado · 5 en ejecución
patente	solicitada OEPM

Módulo 01 · Compliance GPAI

Compliance GPAI

AI ACT ARTS.51-56GPAI CODE OF PRACTICEAI OFFICE

Evaluación de modelos de propósito general. Documentación técnica. Transparencia. Obligaciones de proveedores GPAI. Riesgo sistémico.

G1COMPLIANCE GPAIProveedor de modelo fundacional. >10^25 FLOP de entrenamiento. Desplegado como A...

AI ACT ARTS.51-56 · GPAI CODE OF PRACTICE · AI OFFICE

Modelo GPAI con 10^25 FLOP desplegado sin evaluación de riesgo sistémico.

AI Act Art.51: umbral de riesgo sistémico superado. Sin documentación técnica publicada.

Score IDF

Análisis dimensional · 5 ejes

Reproducibilidad60

60

Cumplimiento normativo42

42

Robustez matemática65

65

Integridad del artefacto70

70

Estabilidad temporal40

40

Checklist regulatorio

✗

Art.51 — Riesgo sistémico: >10^25 FLOP = modelo con riesgo sistémico. Sin evaluación.

✗

Art.53 — Documentación: ficha técnica del modelo no publicada.

✗

Art.55 — Incidentes: sin mecanismo de reporte de incidentes graves.

✗

GPAI Code: sin adhesión al código de prácticas.

Contexto

Proveedor de modelo fundacional. >10^25 FLOP de entrenamiento. Desplegado como API en múltiples sectores. Sin evaluación de riesgo sistémico.

Acciones · Prioridad

P0 — Evaluación de riesgo sistémico Art.51

P0 — Publicar documentación técnica Art.53

P0 — Implementar reporte de incidentes Art.55

Métricas

54

Score global

€35M / 7%

Multa máxima AI Act

estado sellado · íntegro
ante AI Office · AESIA · EDPB

PANEL G1Regulatory Radar — Vista 360°

Lo que sustituye a un informe de 200 páginas

Radar dimensional · Score 54

Estado regulatorio en tiempo real

✗

Art.51 — Riesgo sistémico:

>10^25 FLOP = modelo con riesgo sistémico. Sin eva

✗

Art.53 — Documentación:

ficha técnica del modelo no publicada.

✗

Art.55 — Incidentes:

sin mecanismo de reporte de incidentes graves.

✗

GPAI Code:

sin adhesión al código de prácticas.

Esto es lo que sustituye a un informe de 200 páginas.

Vista en tiempo real. Score + checklist + gaps priorizados + artefacto verificable. Generado en 4 segundos.

54

Score global

4

Gaps críticos

4s

Latencia

G2COMPLIANCE GPAIEmpresa fintune modelo GPAI para scoring crediticio. El modelo base pasó evaluac...

AI ACT ARTS.51-56 · GPAI CODE OF PRACTICE · AI OFFICE

Modelo fine-tuned para crédito bancario. Score NOUS: 83. Score GPAI: 44.

El modelo base no es el problema. El fine-tuning para alto riesgo sí.

Score IDF

Análisis dimensional · 5 ejes

Reproducibilidad52

52

Cumplimiento normativo38

38

Robustez matemática55

55

Integridad del artefacto60

60

Estabilidad temporal35

35

Checklist regulatorio

✗

Art.51-56: proveedor del fine-tune hereda obligaciones de alto riesgo.

✗

Liability Directive: responsabilidad compartida proveedor GPAI + deployer.

✗

Art.53: dataset de fine-tuning no documentado ni auditable.

!

Art.56: modelo base conforme ≠ fine-tune conforme.

Contexto

Empresa fintune modelo GPAI para scoring crediticio. El modelo base pasó evaluación. El fine-tune para alto riesgo no tiene evaluación independiente.

Acciones · Prioridad

P0 — Evaluación del fine-tune como sistema alto riesgo

P0 — Documentar dataset y método de fine-tuning

P1 — Acuerdo de responsabilidad con deployer

Métricas

44

Score global

€35M

AI Act + Liability Directive

estado sellado · íntegro
ante AI Office · AESIA · EBA

PANEL G2La trampa del score global

Por qué el análisis dimensional es imprescindible

Lo que ve tu GRC actual

44 — NO CONFORME ✓

Un número. Sin contexto. Sin desagregación. Sin flags. El equipo de compliance lo aprueba. El supervisor, no.

Lo que ve NOUS

Reproducibilidad52 ⬇ CRÍTICO

Cumplimiento normativo38 ⬇ CRÍTICO

Robustez matemática55 ⬇ CRÍTICO

Integridad del artefacto60 ⬇ BAJO UMBRAL

Estabilidad temporal35 ⬇ CRÍTICO

Conforme en papel. Vulnerable en inspección.

Estabilidad temporal = 35. €35M exposición. El score global miente.

Módulo 02 · Riesgo Provider

Riesgo Provider

LIABILITY DIRECTIVECOPYRIGHTSAFETYBIAS

Evaluación de riesgos para proveedores. Responsabilidad civil. Propiedad intelectual en datos de entrenamiento. Sesgo en outputs. Safety testing.

R1RIESGO PROVIDERProveedor de LLM. Modelo memoriza y reproduce fragmentos de texto protegido por ...

LIABILITY DIRECTIVE · COPYRIGHT · SAFETY · BIAS

Modelo genera texto con fragmentos literales de datos de entrenamiento.

3 demandas por copyright activas. €120M en reclamaciones acumuladas.

Score IDF

Análisis dimensional · 5 ejes

Reproducibilidad68

68

Cumplimiento normativo55

55

Robustez matemática72

72

Integridad del artefacto78

78

Estabilidad temporal50

50

Checklist regulatorio

✗

Copyright Directive: memorización de datos de entrenamiento demostrada.

✗

Art.53: resumen de datos de entrenamiento insuficiente.

!

Liability Directive: facilitación de prueba para demandantes.

!

GPAI Code: medidas de mitigación de memorización no implementadas.

Contexto

Proveedor de LLM. Modelo memoriza y reproduce fragmentos de texto protegido por copyright. 3 demandas activas de titulares de derechos.

Acciones · Prioridad

P0 — Implementar deduplicación de training data

P0 — Publicar resumen de datos (Art.53)

P1 — Mecanismo opt-out para titulares

Métricas

61

Score global

€120M

Reclamaciones copyright

estado sellado · íntegro
ante AI Office · Juzgados · EUIPO

PANEL R1Cadena de custodia forense

La prueba técnica que un supervisor necesita

① Decisión

Modelo genera texto con f...

Registrada

→

② Modelo

Identidad ✓

Certificada en artefacto

→

③ Sello

Verificado ✓

Hash criptográfico íntegro

→

④ Cadena

Completa

Decisión → modelo → resultado

→

⑤ Verif. offline

SÍ

Sin acceso a NOUS ni al modelo

"3 demandas por copyright activas. €120M en reclamaciones acumuladas."

Sin el artefacto NOUS, esa situación no tiene solución técnica reproducible.

Sin NOUS — situación actual

• Sin registro de la decisión automatizada
• Sin trazabilidad de versión del modelo
• Sin evidencia verificable para supervisor
• Exposición: €120M
• Defensa técnica imposible

Con NOUS — artefacto disponible

• Identidad del modelo certificada
• Hash criptográfico vincula decisión + modelo
• Cadena de custodia completa e inmutable
• Verificable offline por cualquier tercero
• Evidencia técnica reproducible

R2RIESGO PROVIDERProveedor de modelo fundacional. Safety testing revela 12 vectores de jailbreak ...

LIABILITY DIRECTIVE · COPYRIGHT · SAFETY · BIAS

Safety testing revela 12 vectores de jailbreak exitosos.

Modelo produce contenido dañino cuando se bypassa el safety layer.

Score IDF

Análisis dimensional · 5 ejes

Reproducibilidad75

75

Cumplimiento normativo68

68

Robustez matemática80

80

Integridad del artefacto82

82

Estabilidad temporal60

60

Checklist regulatorio

✗

Art.55 — Safety: 12 vectores de jailbreak = riesgo sistémico no mitigado.

!

GPAI Code: red teaming insuficiente antes de release.

✓

Art.53: documentación técnica parcialmente completa.

!

Liability: proveedor responsable de outputs perjudiciales post-jailbreak.

Contexto

Proveedor de modelo fundacional. Safety testing revela 12 vectores de jailbreak que producen outputs dañinos. Modelo ya desplegado en producción.

Acciones · Prioridad

P0 — Patch de safety para 12 vectores

P0 — Red teaming externo pre-release

P1 — Mecanismo de reporte de incidentes Art.55

Métricas

72

Score global

€35M

AI Act riesgo sistémico

estado sellado · íntegro
ante AI Office · ENISA · AESIA

PANEL R2Drift Monitor — Detección temprana

La diferencia entre prevención y requerimiento

Degradación del modelo · Score estabilidad temporal

Ventana de detección

En inspección

Detección tardía

6 meses antes

Detección NOUS

Impacto

€35M

Exposición bajo modelo derivado

Δ −25 pts

Desde baseline

1

Gaps críticos activos

~4s

Diagnóstico completo NOUS

Contenido del informe NOUS:
→ Sello actual vs. baseline de validación
→ Análisis de deriva acumulada por dimensión
→ Identificación de cambios silenciosos
→ Plan de remediación priorizado (P0/P1/P2)
→ Informe audit-ready exportable (PDF)

Módulo 03 · Evaluación

Evaluación

AI ACT ART.53BENCHMARKSTRANSPARENCYGOVERNANCE

Evaluación comparativa de modelos. Benchmarks estandarizados. Transparencia de capacidades. Gobernanza de modelo como servicio.

V1EVALUACIÓNNOUS evalúa 6 modelos GPAI con el mismo pipeline. Motor M5 produce scores determ...

AI ACT ART.53 · BENCHMARKS · TRANSPARENCY · GOVERNANCE

Benchmark NOUS: 6 modelos evaluados. Solo 1 supera umbral de conformidad.

Evaluación determinista comparable. Mismo motor, mismas reglas, resultados verificables.

Score IDF

Análisis dimensional · 5 ejes

Reproducibilidad95

95

Cumplimiento normativo88

88

Robustez matemática92

92

Integridad del artefacto98

98

Estabilidad temporal85

85

Checklist regulatorio

✓

Determinismo: misma evaluación = mismo resultado. Verificable por tercero.

✓

Comparabilidad: 6 modelos evaluados con las mismas reglas.

✓

Transparencia: score, dimensiones y gaps publicables.

✓

Verificabilidad: cualquier auditor reproduce el resultado offline.

Contexto

NOUS evalúa 6 modelos GPAI con el mismo pipeline. Motor M5 produce scores deterministas y comparables. Solo 1 modelo (Synthetic Baseline, score 92) supera todos los umbrales.

Acciones · Prioridad

INFO — Publicar resultados comparativos

INFO — Certificación NOUS para modelos conformes

INFO — Integración con registros AI Office

Métricas

92

Score global

N/A

Benchmark comparativo

estado sellado · íntegro
ante AI Office · Deployers · Auditores

PANEL V1Certificación técnica — Aislamiento y trazabilidad

La prueba que el regulador necesita

Arquitectura del sistema evaluado

"¿Puede certificar que la evaluación está aislada del contexto de otros procesos?"

— Pregunta del regulador

✗ Sin certificación

No existe mecanismo técnico para probarlo. El score no demuestra aislamiento. La respuesta honesta: "No podemos."

✓ Con NOUS

Artefacto único por evaluación. Vincula contexto + modelo + params + timestamp. Contaminación: ausente. Verificable offline.

evaluación: artefacto único ✓
contaminación: ausente · verificada
aislamiento: matemático · demostrable
verif. offline: sí · sin acceso a NOUS

V2EVALUACIÓNModelo de generación de contenido sintético. Sin watermarking, sin disclaimers, ...

AI ACT ART.53 · BENCHMARKS · TRANSPARENCY · GOVERNANCE

Deepfake Gen X: score 44. El modelo más peligroso del portfolio.

Sin disclaimers. Sin watermarking. Sin restricciones de uso. Sin evaluación previa.

Score IDF

Análisis dimensional · 5 ejes

Reproducibilidad50

50

Cumplimiento normativo30

30

Robustez matemática55

55

Integridad del artefacto60

60

Estabilidad temporal35

35

Checklist regulatorio

✗

AI Act Art.50: sin marcado obligatorio de contenido generado por IA.

✗

Art.52: sin transparencia al usuario sobre naturaleza del contenido.

✗

Art.51: modelo de generación sin evaluación de riesgo sistémico.

✗

Liability: proveedor responsable de daños por deepfakes generados.

Contexto

Modelo de generación de contenido sintético. Sin watermarking, sin disclaimers, sin restricciones de uso. Score NOUS 44: el más bajo del portfolio de 6.

Acciones · Prioridad

P0 — Implementar watermarking obligatorio

P0 — Restricciones de uso para alto riesgo

P0 — Evaluación de riesgo sistémico Art.51

Métricas

44

Score global

€35M / 7%

Multa máxima AI Act

estado sellado · íntegro
ante AI Office · AESIA · Policía

PANEL V2Rayos X dimensionales — Radiografía del supervisor

Lo que ve el inspector vs. lo que ve el equipo técnico

Score global aparente

Descomposición dimensional

Reproducibilidad50 ⬇ CRÍTICO

Cumplimiento normativo30 ⬇ CRÍTICO

Robustez matemática55 ⬇ CRÍTICO

Integridad del artefacto60 ⬇ FLAG

Estabilidad temporal35 ⬇ CRÍTICO

Vector 1: Variabilidad

Reproducibilidad: 50/100. Resultados variables bajo condiciones idénticas. Directamente observable por el regulador.

Vector 2: Explicabilidad

Cumplimiento normativo: 30/100. El modelo no puede producir explicación significativa. Riesgo estructural con exposición activa.

Vector 3: Obsolescencia

Robustez matemática: 55/100. Degradación acumulada sin mecanismo de detección. El modelo opera con datos desactualizados.

Sin análisis dimensional, los vectores de fallo permanecen ocultos bajo un score aparente.

NOUS genera esta radiografía en 4 segundos. La consultoría convencional: 6-8 meses y €200-500k.