🧠 Meta-Sistema v2

Capa de meta-cognición sobre LLMs. Convierte un modelo barato (GPT-4o-mini) en uno que mejora consistentemente vs. baseline en benchmarks académicos y casos reales.

¿Qué hace? Toma una pregunta o tarea, la rutea por una pipeline modular (M2 contexto, M3 estrategia, M5 reglas/validación, M6 aprendizaje, M8 verificación de código, M9 documentos), y devuelve la respuesta del LLM mejorada. Funciona con GPT-4o, Gemini y otros.

¿Para qué sirve? Llevarse el ahorro de costo de un modelo barato sin perder calidad: GPT-4o-mini con la capa meta llega a precisiones cercanas a modelos premium, en datasets y en casos reales.

📊 Resultados — honestos y reproducibles

Corridas sobre GPT-4o-mini (modelo barato de OpenAI), comparando baseline (1 llamada T=0) vs meta-sistema con ensemble N=11 + selective prediction. Sin trampas: M5b skipped, M8 sólo usa doctests del docstring (no tests privados), MMLU con fallback a baseline si no hay consenso.

Dataset Tasks Oficial OpenAI Nuestra Baseline Meta-honest Δ Acc Costo Base Costo Meta
GSM8K 1,319 (full) ~94.2% 93.40% 95.00% +1.59 $0.251 $3.209
MMLU 1,000 (subset) 82.0% 74.30% 79.30% +5.00 $0.020 $1.661
HumanEval 164 (full) 87.2% 84.15% 84.76% +0.61 $0.012 $0.019
TOTAL 2,483 $0.283 $4.889

Wall-clock total: ~36 min. Todos los deltas positivos — meta-honest nunca queda por debajo de baseline. → Reporte completo + datos crudos

🥇 MMLU: validación full contra protocolo oficial

Para validar contra el 82.0% oficial de OpenAI, corrimos sobre el mismo subset de 1,000 tasks cuatro setups: el protocolo del paper MMLU (5-shot Chain-of-Thought), nuestro baseline minimal, y la capa meta sobre ambos.

Setup en MMLU subset 1000 Accuracy Costo Detalle
Baseline 0-shot direct (mínimo) 74.30% $0.02 "Decime sólo la letra"
Baseline 5-shot CoT (protocolo paper / OpenAI) 78.80% $0.28 5 demos del dev set por subject + razonamiento
Meta-honest sobre 0-shot 79.30% $1.66 +5.0 pts sobre baseline, sin curar ejemplos
🏆 Meta-honest sobre 5-shot CoT 81.10% $3.14 +2.3 pts sobre baseline oficial. A 0.9 pts del 82% oficial.
Oficial OpenAI publicado 82.0% Sobre full 14,042 tasks. Gap residual ~1.5 pts: subset vs full

Conclusión: la capa meta agrega valor sobre ambos protocolos (baseline 0-shot y baseline 5-shot CoT). El meta sobre 5-shot CoT llega al 81.10% — dentro del margen estadístico del 82% oficial (varianza ±1.5% en subset 1000 vs full 14,042). Reproducible: scripts/run_mmlu_5shot_cot_meta.py.

🧩 Módulos

M2 — Context Enrichment
Recupera soluciones correctas similares (pgvector) y las inyecta en el prompt.
M3 — Task Routing
Detecta tipo de tarea y aplica la estrategia aprendida por dataset×modelo.
M3b — Ensemble
Self-consistency con N=11 + majority vote sobre respuestas extraídas.
M5d — Rules Engine
Validación pre/post con reglas regulatorias configurables (CRUD via /rules).
M6 — Learning Engine
PostgreSQL + pgvector. Aprende de feedback y filtra el KB por calidad.
M8 — Code Verification
Ejecuta el código, lee el error y dispara una corrección iterativa.
M9 — Document Store
Subí PDFs/imágenes vía /upload, referencialos desde /solve por file_id.

📚 Fuentes de los números oficiales