Evaluación independiente de LLMs en conocimiento cultural latinoamericano. Números reproducibles que nadie más publica, con juez calibrado y transcripts abiertos.
El accuracy crudo colapsa abstención y alucinación en un solo "incorrecto", pero son opuestos. En CHOCLO, Opus 4.8 inventa solo 9.4% mientras LatamGPT inventa 53.2% (casi nunca se abstiene).
LatamGPT y su modelo base se solapan: el continued-pretraining no muestra mejora significativa. Tres jueces de familias distintas concuerdan (Fleiss kappa 0.68). Las tasas de abstención están parcialmente influidas por el prompt.
El mejor modelo responde 73% de las preguntas culturales; ninguno pasa de ahí. El conocimiento regional sigue siendo la cola débil incluso para SOTA.
El token-F1 castiga respuestas correctas pero verbosas. Con el juez calibrado, el ranking se reordena por completo.
El primer eval independiente de un modelo con continued-pretraining regional lo deja apenas sobre su base, y entre los que más alucinan.
"La ambigüedad no es pecado del lenguaje, es pecado del diseño del benchmark."
Un modelo fuera del set comparado decide si la respuesta expresa los hechos de la referencia. Calibrado con un set sintético: TPR 0.99 / TNR 0.97.
No solo accuracy. Separamos abstención honesta ("no sé") de alucinación ("sabe mal"): para alto riesgo, un modelo que se calla vale más que uno que inventa.
Cada corrida guarda respuestas crudas y transcripts del juez. Seed fijo, temperatura 0, todo versionado en git.
El pipeline detecta no solo errores de los modelos sino issues de referencia en los benchmarks mismos. Fixes aditivos, nunca correcciones culturales.
500 preguntas curadas de cultura, historia, geografía y gastronomía de 20 países. Referencia abierta.
105K preguntas de entidades culturales por país, categoría y dificultad. Conocimiento de cola larga.
Conjunto generativo nativo con referencias multi-respuesta, diseñado para cubrir el espacio de respuestas defendibles.
El harness, las respuestas crudas, los transcripts del juez y la calibración están en GitHub. Cualquiera puede correr un modelo nuevo, auditar un veredicto o reproducir la tabla con el mismo seed.