¿Qué hace? Toma una pregunta o tarea, la rutea por una pipeline modular (M2 contexto, M3 estrategia, M5 reglas/validación, M6 aprendizaje, M8 verificación de código, M9 documentos), y devuelve la respuesta del LLM mejorada. Funciona con GPT-4o, Gemini y otros.
¿Para qué sirve? Llevarse el ahorro de costo de un modelo barato sin perder calidad: GPT-4o-mini con la capa meta llega a precisiones cercanas a modelos premium, en datasets y en casos reales.
📊 Resultados — honestos y reproducibles
Corridas sobre GPT-4o-mini (modelo barato de OpenAI), comparando baseline (1 llamada T=0) vs meta-sistema con ensemble N=11 + selective prediction. Sin trampas: M5b skipped, M8 sólo usa doctests del docstring (no tests privados), MMLU con fallback a baseline si no hay consenso.
| Dataset | Tasks | Oficial OpenAI | Nuestra Baseline | Meta-honest | Δ Acc | Costo Base | Costo Meta |
|---|---|---|---|---|---|---|---|
| GSM8K | 1,319 (full) | ~94.2% | 93.40% | 95.00% | +1.59 | $0.251 | $3.209 |
| MMLU | 1,000 (subset) | 82.0% | 74.30% | 79.30% | +5.00 | $0.020 | $1.661 |
| HumanEval | 164 (full) | 87.2% | 84.15% | 84.76% | +0.61 | $0.012 | $0.019 |
| TOTAL | 2,483 | — | — | — | — | $0.283 | $4.889 |
Wall-clock total: ~36 min. Todos los deltas positivos — meta-honest nunca queda por debajo de baseline. → Reporte completo + datos crudos
🥇 MMLU: validación full contra protocolo oficial
Para validar contra el 82.0% oficial de OpenAI, corrimos sobre el mismo subset de 1,000 tasks cuatro setups: el protocolo del paper MMLU (5-shot Chain-of-Thought), nuestro baseline minimal, y la capa meta sobre ambos.
| Setup en MMLU subset 1000 | Accuracy | Costo | Detalle |
|---|---|---|---|
| Baseline 0-shot direct (mínimo) | 74.30% | $0.02 | "Decime sólo la letra" |
| Baseline 5-shot CoT (protocolo paper / OpenAI) | 78.80% | $0.28 | 5 demos del dev set por subject + razonamiento |
| Meta-honest sobre 0-shot | 79.30% | $1.66 | +5.0 pts sobre baseline, sin curar ejemplos |
| 🏆 Meta-honest sobre 5-shot CoT | 81.10% | $3.14 | +2.3 pts sobre baseline oficial. A 0.9 pts del 82% oficial. |
| Oficial OpenAI publicado | 82.0% | — | Sobre full 14,042 tasks. Gap residual ~1.5 pts: subset vs full |
Conclusión: la capa meta agrega valor sobre ambos protocolos (baseline 0-shot y baseline 5-shot CoT). El meta sobre 5-shot CoT llega al 81.10% — dentro del margen estadístico del 82% oficial (varianza ±1.5% en subset 1000 vs full 14,042). Reproducible: scripts/run_mmlu_5shot_cot_meta.py.
🧩 Módulos
📚 Fuentes de los números oficiales
- MMLU 82.0% + HumanEval 87.2% → anuncio oficial OpenAI GPT-4o-mini (2024-07-18): openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
- GSM8K ~94% → benchmarks públicos (vellum.ai, artificialanalysis.ai). OpenAI sólo publicó MGSM (multilingüe, 87.0%).