LatamBench

01 / Leaderboard

¿Qué saben los
modelos de Latam?

#

Modelo

1

Claude Fable 5

Anthropic

73.0%

3.4%

7.6%

2

Gemini 3.1 Pro

Google

67.4%

2.2%

8.4%

3

Gemini 3.5 Flash

Google

64.0%

2.0%

10.0%

4

GPT-5.5

OpenAI

63.7%

1.2%

10.8%

5

V4 Pro

DeepSeek

55.2%

2.4%

19.4%

6

Qwen3.7 Max

Alibaba

54.0%

8.6%

14.8%

7

GPT-5.4 Mini

OpenAI

45.8%

4.6%

19.0%

8

Claude Haiku 4.5

Anthropic

33.6%

15.6%

27.0%

9

Llama 4 Maverick

El frontier domina, pero no aplasta

El mejor modelo responde 73% de las preguntas culturales; ninguno pasa de ahí. El conocimiento regional sigue siendo la cola débil incluso para SOTA.

Las métricas léxicas mienten

El token-F1 castiga respuestas correctas pero verbosas. Con el juez calibrado, el ranking se reordena por completo.

El pretraining regional mueve poco

El primer eval independiente de un modelo con continued-pretraining regional lo deja apenas sobre su base, y entre los que más alucinan.

"La ambigüedad no es pecado del lenguaje, es pecado del diseño del benchmark."

Principio del proyecto

03 / Metodología

01

Juez anclado a referencia

Un modelo fuera del set comparado decide si la respuesta expresa los hechos de la referencia. Calibrado con un set sintético: TPR 0.99 / TNR 0.97.

02

Tres dimensiones

No solo accuracy. Separamos abstención honesta ("no sé") de alucinación ("sabe mal"): para alto riesgo, un modelo que se calla vale más que uno que inventa.

03

Reproducible

Cada corrida guarda respuestas crudas y transcripts del juez. Seed fijo, temperatura 0, todo versionado en git.

04

Auditoría del benchmark

El pipeline detecta no solo errores de los modelos sino issues de referencia en los benchmarks mismos. Fixes aditivos, nunca correcciones culturales.

04 / Qué evaluamos

[TRUEQUE] Evaluado

Trueque

500 preguntas curadas de cultura, historia, geografía y gastronomía de 20 países. Referencia abierta.

CENIA · Apache 2.0

[CHOCLO] Preliminar

CHOCLO

105K preguntas de entidades culturales por país, categoría y dificultad. Conocimiento de cola larga.

CENIA · MIT

[LATAM-*] Fase 2

Dataset propio

Conjunto generativo nativo con referencias multi-respuesta, diseñado para cubrir el espacio de respuestas defendibles.

Crafter Research

Todo abierto y
reproducible

El harness, las respuestas crudas, los transcripts del juez y la calibración están en GitHub. Cualquiera puede correr un modelo nuevo, auditar un veredicto o reproducir la tabla con el mismo seed.

GitHub HuggingFace

¿Qué saben los modelos de Latam?