Crafter Research
Observatorio de evals

LatamBench

Evaluación independiente de LLMs en conocimiento cultural latinoamericano. Números reproducibles que nadie más publica, con juez calibrado y transcripts abiertos.

2
benchmarks
11
modelos
11K
veredictos
100%
reproducible
01 / Leaderboard

¿Qué saben los
modelos de Latam?

#
Modelo
1
Claude Fable 5
Anthropic
73.0%
3.4%
7.6%
2
Gemini 3.1 Pro
Google
67.4%
2.2%
8.4%
3
Gemini 3.5 Flash
Google
64.0%
2.0%
10.0%
4
GPT-5.5
OpenAI
63.7%
1.2%
10.8%
5
V4 Pro
DeepSeek
55.2%
2.4%
19.4%
6
Qwen3.7 Max
Alibaba
54.0%
8.6%
14.8%
7
GPT-5.4 Mini
OpenAI
45.8%
4.6%
19.0%
8
Claude Haiku 4.5
Anthropic
33.6%
15.6%
27.0%
9
Llama 4 Maverick
Meta
30.0%
4.6%
30.8%
10
CE
LatamGPT SFT 1.0
CENIA
regional
23.9%
5.0%
42.1%
11
Llama 3.1 70B
Meta
base
20.3%
5.0%
38.8%
Hallazgo clave

El accuracy crudo colapsa abstención y alucinación en un solo "incorrecto", pero son opuestos. En CHOCLO, Opus 4.8 inventa solo 9.4% mientras LatamGPT inventa 53.2% (casi nunca se abstiene).

columnas
Correcto
expresa los hechos de la referencia
Abstención
se abstiene honestamente
Alucinación
inventa (alucinación)
Rigor

LatamGPT y su modelo base se solapan: el continued-pretraining no muestra mejora significativa. Tres jueces de familias distintas concuerdan (Fleiss kappa 0.68). Las tasas de abstención están parcialmente influidas por el prompt.

Organizaciones
Anthropic
Google
OpenAI
DeepSeek
Alibaba / Qwen
Meta
CE CENIA
02 / Lo que encontramos

El frontier domina, pero no aplasta

El mejor modelo responde 73% de las preguntas culturales; ninguno pasa de ahí. El conocimiento regional sigue siendo la cola débil incluso para SOTA.

Las métricas léxicas mienten

El token-F1 castiga respuestas correctas pero verbosas. Con el juez calibrado, el ranking se reordena por completo.

El pretraining regional mueve poco

El primer eval independiente de un modelo con continued-pretraining regional lo deja apenas sobre su base, y entre los que más alucinan.

"La ambigüedad no es pecado del lenguaje, es pecado del diseño del benchmark."

Principio del proyecto
03 / Metodología
01

Juez anclado a referencia

Un modelo fuera del set comparado decide si la respuesta expresa los hechos de la referencia. Calibrado con un set sintético: TPR 0.99 / TNR 0.97.

02

Tres dimensiones

No solo accuracy. Separamos abstención honesta ("no sé") de alucinación ("sabe mal"): para alto riesgo, un modelo que se calla vale más que uno que inventa.

03

Reproducible

Cada corrida guarda respuestas crudas y transcripts del juez. Seed fijo, temperatura 0, todo versionado en git.

04

Auditoría del benchmark

El pipeline detecta no solo errores de los modelos sino issues de referencia en los benchmarks mismos. Fixes aditivos, nunca correcciones culturales.

04 / Qué evaluamos
[TRUEQUE] Evaluado

Trueque

500 preguntas curadas de cultura, historia, geografía y gastronomía de 20 países. Referencia abierta.

CENIA · Apache 2.0
[CHOCLO] Preliminar

CHOCLO

105K preguntas de entidades culturales por país, categoría y dificultad. Conocimiento de cola larga.

CENIA · MIT
[LATAM-*] Fase 2

Dataset propio

Conjunto generativo nativo con referencias multi-respuesta, diseñado para cubrir el espacio de respuestas defendibles.

Crafter Research

Todo abierto y
reproducible

El harness, las respuestas crudas, los transcripts del juez y la calibración están en GitHub. Cualquiera puede correr un modelo nuevo, auditar un veredicto o reproducir la tabla con el mismo seed.