Meta-Sistema v2 — Neurotry

¿Qué hace? Toma una pregunta o tarea, la rutea por una pipeline modular (M2 contexto, M3 estrategia, M5 reglas/validación, M6 aprendizaje, M8 verificación de código, M9 documentos), y devuelve la respuesta del LLM mejorada. Funciona con GPT-4o, Gemini y otros.

¿Para qué sirve? Llevarse el ahorro de costo de un modelo barato sin perder calidad: GPT-4o-mini con la capa meta llega a precisiones cercanas a modelos premium, en datasets y en casos reales.

📊 Resultados — honestos y reproducibles

Corridas sobre GPT-4o-mini (modelo barato de OpenAI), comparando baseline (1 llamada T=0) vs meta-sistema con ensemble N=11 + selective prediction. Sin trampas: M5b skipped, M8 sólo usa doctests del docstring (no tests privados), MMLU con fallback a baseline si no hay consenso.

Dataset	Tasks	Oficial OpenAI	Nuestra Baseline	Meta-honest	Δ Acc	Costo Base	Costo Meta
GSM8K	1,319 (full)	~94.2%	93.40%	95.00%	+1.59	$0.251	$3.209
MMLU	1,000 (subset)	82.0%	74.30%	79.30%	+5.00	$0.020	$1.661
HumanEval	164 (full)	87.2%	84.15%	84.76%	+0.61	$0.012	$0.019
TOTAL	2,483	—	—	—	—	$0.283	$4.889

Wall-clock total: ~36 min. Todos los deltas positivos — meta-honest nunca queda por debajo de baseline. → Reporte completo + datos crudos

🥇 MMLU: validación full contra protocolo oficial

Para validar contra el 82.0% oficial de OpenAI, corrimos sobre el mismo subset de 1,000 tasks cuatro setups: el protocolo del paper MMLU (5-shot Chain-of-Thought), nuestro baseline minimal, y la capa meta sobre ambos.

Setup en MMLU subset 1000	Accuracy	Costo	Detalle
Baseline 0-shot direct (mínimo)	74.30%	$0.02	"Decime sólo la letra"
Baseline 5-shot CoT (protocolo paper / OpenAI)	78.80%	$0.28	5 demos del dev set por subject + razonamiento
Meta-honest sobre 0-shot	79.30%	$1.66	+5.0 pts sobre baseline, sin curar ejemplos
🏆 Meta-honest sobre 5-shot CoT	81.10%	$3.14	+2.3 pts sobre baseline oficial. A 0.9 pts del 82% oficial.
Oficial OpenAI publicado	82.0%	—	Sobre full 14,042 tasks. Gap residual ~1.5 pts: subset vs full

Conclusión: la capa meta agrega valor sobre ambos protocolos (baseline 0-shot y baseline 5-shot CoT). El meta sobre 5-shot CoT llega al 81.10% — dentro del margen estadístico del 82% oficial (varianza ±1.5% en subset 1000 vs full 14,042). Reproducible: scripts/run_mmlu_5shot_cot_meta.py.

🧩 Módulos

M2 — Context Enrichment

Recupera soluciones correctas similares (pgvector) y las inyecta en el prompt.

M3 — Task Routing

Detecta tipo de tarea y aplica la estrategia aprendida por dataset×modelo.

M3b — Ensemble

Self-consistency con N=11 + majority vote sobre respuestas extraídas.

M5d — Rules Engine

Validación pre/post con reglas regulatorias configurables (CRUD via /rules).

M6 — Learning Engine

PostgreSQL + pgvector. Aprende de feedback y filtra el KB por calidad.

M8 — Code Verification

Ejecuta el código, lee el error y dispara una corrección iterativa.

M9 — Document Store

Subí PDFs/imágenes vía /upload, referencialos desde /solve por file_id.

📚 Fuentes de los números oficiales

MMLU 82.0% + HumanEval 87.2% → anuncio oficial OpenAI GPT-4o-mini (2024-07-18): openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
GSM8K ~94% → benchmarks públicos (vellum.ai, artificialanalysis.ai). OpenAI sólo publicó MGSM (multilingüe, 87.0%).