Image

BakeLab Public Benchmark ///

Last updated February 2026

Visual Aesthetic
Benchmark

A large-scale evaluation of frontier AI models on artist-curated artworks across fine art, photography, and illustration — benchmarking model judgments against domain-expert evaluations across 400 comparison sets.

13K+Expert Judgments
20Frontier Models
2,000+Hrs Commissioned
26.5%Highest Performance

BakeLab · UW · UCSB · Stanford · Notre Dame · IBM Research

Leaderboard

Model Rankings

Correct in all 3 attempts with shuffled option order
Avg precision over 3 attempts with shuffled option order
👨‍🎓Human Expert
77.768.9
Top-1
███████████████████████████████░░░░░░░░░
TB-1
████████████████████████████░░░░░░░░░░░░
01ClaudeClaude Sonnet 4.6
40.326.5
Top-1
████████████████░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
███████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
02ClaudeClaude Opus 4.6
35.520.0
Top-1
██████████████░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
03GeminiGemini 3.1 Pro
35.022.3
Top-1
██████████████░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
█████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
04GeminiGemini 3 Pro
35.022.0
Top-1
██████████████░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
█████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
05ClaudeClaude Opus 4.5
34.320.3
Top-1
██████████████░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
06DoubaoDoubao Seed 2.0 Pro
33.323.5
Top-1
█████████████░░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
█████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
07OpenAIGPT-5
32.321.8
Top-1
█████████████░░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
█████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
08QwenQwen 3.5 Plus
30.819.3
Top-1
████████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
09QwenQwen 3.5 397B
29.817.3
Top-1
████████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
███████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
10OpenAIGPT-4.1
29.521.3
Top-1
████████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
█████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
11OpenAIGPT-5.1
29.520.0
Top-1
████████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
12GeminiGemini 3 Flash
28.015.8
Top-1
███████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
██████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
13MoonshotAIKimi K2.5
26.815.0
Top-1
███████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
██████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
14OpenAIo4-mini
25.021.5
Top-1
██████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
█████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
15ClaudeClaude Sonnet 4.5
24.314.5
Top-1
██████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
██████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
16OpenAIGPT-5.2
24.015.5
Top-1
██████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
██████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
17QwenQwen3 VL 235B
20.514.0
Top-1
████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
██████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
18ClaudeClaude Haiku 4.5
18.812.5
Top-1
████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
█████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
19
Z.ai
GLM 4.6V
17.511.5
Top-1
███████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
█████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
20GrokGrok 4.1 Fast
15.512.5
Top-1
██████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
█████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
🎲Random Guess
6.65.3
Top-1
███░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
TB-1
██░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░

Detailed Scores

Score Breakdown

Scroll to explore the full table

Correct in all 3 attempts with shuffled option order
Avg precision over 3 attempts with shuffled option order
Top & Bottom 1: select best and worst
Top 1: only select the best
ArtworkIllustrationPhotography
Top-1TB-1AverageAverageAverage
Human-Expert77.768.974.7███████████████░░░░░54.4███████████░░░░░░░░░72.4██████████████░░░░░░
Model
1Claude-Sonnet-4.640.326.534.2███████░░░░░░░░░░░░░19.0████░░░░░░░░░░░░░░░░23.0█████░░░░░░░░░░░░░░░
2Claude-Opus-4.635.520.023.6█████░░░░░░░░░░░░░░░17.0███░░░░░░░░░░░░░░░░░18.0████░░░░░░░░░░░░░░░░
3Gemini-3.1-Pro35.022.326.1█████░░░░░░░░░░░░░░░13.0███░░░░░░░░░░░░░░░░░24.5█████░░░░░░░░░░░░░░░
Gemini-3-Pro35.022.029.8██████░░░░░░░░░░░░░░14.0███░░░░░░░░░░░░░░░░░18.7████░░░░░░░░░░░░░░░░
Claude-Opus-4.534.320.324.2█████░░░░░░░░░░░░░░░14.0███░░░░░░░░░░░░░░░░░20.1████░░░░░░░░░░░░░░░░
Doubao-Seed-2.0-Pro33.323.532.9███████░░░░░░░░░░░░░6.0░░░░░░░░░░░░░░░░░░░25.2█████░░░░░░░░░░░░░░░
GPT-532.321.825.5█████░░░░░░░░░░░░░░░9.0██░░░░░░░░░░░░░░░░░░26.6█████░░░░░░░░░░░░░░░
Qwen-3.5-Plus30.819.319.9████░░░░░░░░░░░░░░░░13.0███░░░░░░░░░░░░░░░░░23.0█████░░░░░░░░░░░░░░░
Qwen-3.5-397B29.817.317.4███░░░░░░░░░░░░░░░░░8.0██░░░░░░░░░░░░░░░░░░23.7█████░░░░░░░░░░░░░░░
GPT-4.129.521.325.5█████░░░░░░░░░░░░░░░15.0███░░░░░░░░░░░░░░░░░20.9████░░░░░░░░░░░░░░░░
GPT-5.129.520.029.8██████░░░░░░░░░░░░░░11.0██░░░░░░░░░░░░░░░░░░15.1███░░░░░░░░░░░░░░░░░
Gemini-3-Flash28.015.820.5████░░░░░░░░░░░░░░░░8.0██░░░░░░░░░░░░░░░░░░15.8███░░░░░░░░░░░░░░░░░
Kimi-K2.526.815.018.0████░░░░░░░░░░░░░░░░14.0███░░░░░░░░░░░░░░░░░12.2██░░░░░░░░░░░░░░░░░░
o4-mini25.021.523.0█████░░░░░░░░░░░░░░░7.0░░░░░░░░░░░░░░░░░░░30.2██████░░░░░░░░░░░░░░
Claude-Sonnet-4.524.314.519.3████░░░░░░░░░░░░░░░░8.0██░░░░░░░░░░░░░░░░░░13.7███░░░░░░░░░░░░░░░░░
GPT-5.224.015.514.9███░░░░░░░░░░░░░░░░░8.0██░░░░░░░░░░░░░░░░░░21.6████░░░░░░░░░░░░░░░░
Qwen3-VL-235B20.514.019.3████░░░░░░░░░░░░░░░░8.0██░░░░░░░░░░░░░░░░░░12.2██░░░░░░░░░░░░░░░░░░
Claude-Haiku-4.518.812.519.3████░░░░░░░░░░░░░░░░5.0░░░░░░░░░░░░░░░░░░░10.1██░░░░░░░░░░░░░░░░░░
GLM-4.6V17.511.518.6████░░░░░░░░░░░░░░░░8.0██░░░░░░░░░░░░░░░░░░5.8░░░░░░░░░░░░░░░░░░░
Grok-4.1-Fast15.512.517.4███░░░░░░░░░░░░░░░░░11.0██░░░░░░░░░░░░░░░░░░7.9██░░░░░░░░░░░░░░░░░░

* All models with extended thinking capability are evaluated with thinking enabled.

Open-weight model

Evaluation Framework

7 Aesthetic Dimensions

Our benchmark evaluates aesthetic judgment across seven core dimensions, each capturing a distinct facet of visual quality assessment.

01

Composition & Visual Order

Intentional structure, clear hierarchy, and a frame that organizes attention without awkward clutter or emptiness.

02

Light, Tone & Color

Clean value separation, coherent palette, and command over highlights, shadows, and atmospheric mood.

03

Technical Craft

Confident handling of fundamentals — technique that serves the image, never competing with it.

04

Clarity & Focus

Whether the viewer instantly finds what matters. Clear focal point, smooth flow, minimal noise.

05

Finish & Completeness

A resolved image with no neglected areas. Edges, transitions, and surfaces all feel deliberate.

06

Expression & Presence

The felt impact beyond craft — atmosphere, captured moment, artistic character. Something that lingers.

07

Comparative Judgment

The overall call. Which work holds together better, and where the other falls short.

How It Works

Methodology

Original work produced as matched sets. Intent stays constant, only execution varies.

01

Expert Commissioning

1,000+ creators · 2,000+ hours

Original work produced as matched sets. Intent stays constant, only execution varies.

02

Expert Consensus

10 experts per pair · 13,000+ ratings

100+ evaluators across domains. Only kept pairs where judgments converge.

03

Pairwise & Ordering

Best, worst, and both

Models rank coherent aesthetic ordering, not just single-image preference.

04

Bias-Resistant Scoring

Reshuffled order · Repeated trials

Both consistency and average accuracy reported across domains.

Submit Your Model

Have a frontier model you'd like to evaluate? Submit it for inclusion in the next benchmark round.

Get in Touch