16 april 2025

Vi presenterar OpenAI o3 och o4-mini

Våra hittills smartaste och kraftfullaste modeller med fullständig tillgång till verktyg

Laddar …

Uppdaterad den 10 juni 2025: OpenAI o3‑pro finns nu för Pro-användare i ChatGPT och genom vårt API. OpenAI o1‑pro, o3‑pro är en variant av vår smartaste modell, OpenAI o3, som är utformad för att tänka längre och ge de mest tillförlitliga svaren. Fullständiga detaljer finns i våra lanseringsmeddelanden⁠(öppnas i ett nytt fönster).

Idag släpper vi OpenAI o3 och o4-mini, de senaste modellerna i vår o-serie som är tränade att tänka längre innan de svarar. Modellerna är de smartaste vi har släppt hittills och representerar en markant förändring i ChatGPT:s funktioner för alla, från nyfikna användare till erfarna forskare. För första gången kan våra resonemangsmodeller på egen hand använda och kombinera alla verktyg inom ChatGPT. Detta inkluderar webbsökning, analysera uppladdade filer och andra data med Python, resonera djupgående om visuell indata och till och med generera bilder. Avgörande är att dessa modeller har tränats till att resonera kring när och hur de ska använda verktygen för att ge detaljerade och tankeväckande svar i rätt format – vanligtvis inom en minut – för att lösa mer komplexa problem. Det gör att de kan hantera flerdimensionella frågor mer effektivt – ett steg närmare en mer självständig ChatGPT som på egen hand kan utföra uppgifter åt dig. Den samlade kraften i toppmodernt resonemang med fullständig tillgång till verktyg innebär mycket bättre prestanda både vad gäller akademiska riktmärken och verkliga uppgifter, vilket sätter en ny standard för både intelligens och användbarhet.

Vad som har förändrats

OpenAI o3 är vår mest kraftfulla resonemangsmodell som tänjer på gränserna inom kodning, matematik, teknik, visuell perception med mera. Den uppnår toppresultat i benchmark-tester som Codeforces, SWE-bench (utan att behöva någon modellanpassad struktur) och MMMU. Den är perfekt för komplexa frågor som kräver flerdimensionell analys och svar som kanske inte är direkt uppenbara. Den presterar särskilt bra på visuella uppgifter, såsom att analysera bilder, diagram och grafik. Vid utvärderingar av externa experter begår o3 20 procent färre stora misstag än OpenAI o1 på svåra, verkliga uppgifter. Den utmärker sig särskilt inom områden som programmering, affärer/konsultation och kreativa idéer. Tidiga testare framhöll dess analytiska styrka som en tankepartner och poängterade dess förmåga att generera och kritiskt utvärdera nya hypoteser, särskilt inom biologi, matematik och tekniska sammanhang.

OpenAI o4-mini är en mindre modell som har optimerats för snabba, kostnadseffektiva resonemang. Den har en enastående prestanda för sin storlek och kostnad, särskilt inom matematik, kodning och visuella uppgifter. Den toppar benchmark-resultaten för modeller på AIME 2024 och 2025. Även om tillgång till en dator avsevärt minskar svårighetsgraden för AIME-provet, tyckte vi också att det var anmärkningsvärt att o4-mini uppnår 99,5 % pass@1 (100 % consensus@8) på AIME 2025 när den ges tillgång till en Python-tolk. Även om resultaten inte ska jämföras med modeller utan verktygstillgång är de ett exempel på hur effektivt o4-mini utnyttjar tillgängliga verktyg. o3 visar liknande förbättringar på AIME 2025 vid användning av verktyg (98,4 % pass@1, 100 % consensus@8).

Vid expertutvärderingar överträffar o4-mini även sin föregångare, o3‑mini, på icke-STEM-uppgifter samt inom områden som datavetenskap. Tack vare sin effektivitet stödjer o4-mini mycket högre användningsbegränsningar än o3. Det gör den till ett perfekt alternativ för stora datamängder och vid frågor som kräver resonemang. Externa expertutvärderare ansåg att båda modellerna hade bättre förmåga att följa instruktioner och gav mer användbara, verifierbara svar än deras föregångare, tack vare förbättrad intelligens och inkludering av webbkällor. I jämförelse med våra tidigare resonemangsmodeller ska dessa två modeller också kännas naturligare och mer samtalsmässiga, särskilt eftersom de refererar till minnen och tidigare konversationer för att göra svaren mer personliga och relevanta.

Multimodal

Kodning

All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

Förmåga att följa instruktioner och använda verktyg självständigt

Vid utvärderingar har modellerna konfigurerats till högsta resonemangsnivå, liknande modeller som ”o4-mini-high” i ChatGPT.

Fortsätta att skala förstärkningsinlärning

Under hela utvecklingen av OpenAI o3 har vi märkt att storskalig förstärkningsinlärning uppvisar samma trend av ”mer beräkning = bättre prestanda” som vi upptäckte i förträningen av GPT‑serien. Genom att upprepa skalningsprocessen, denna gång i verkligheten, har vi tänjt ytterligare på gränserna för både träningsberäkningen och resonemang i användningsögonblicket. Vi fortsätter att se tydliga prestandaförbättringar som bekräftar att modellernas prestanda blir bättre ju längre tid de får tänka. Med samma latens och kostnad som för OpenAI o1 levererar o3 bättre prestanda i ChatGPT, och vi har bekräftat att om vi låter den tänka längre, fortsätter prestandan att öka.

Vi har också tränat båda modellerna till att använda verktyg genom förstärkningsinlärning – vi lärde dem inte bara hur man använder verktygen utan att resonera sig fram till när de ska användas. Deras förmåga att använda verktyg baserat på önskade resultat gör dem mer kapabla vid öppna situationer, särskilt när det handlar om visuella resonemang och flerstegsarbetsflöden. Denna förbättring återspeglas både i akademiska riktmärken och verkliga uppgifter enligt rapporter från tidiga testare.

Tänka med bilder

För första gången kan dessa modeller integrera bilder direkt i sin tankekedja. De inte bara ser bilden, de tänker med den. Detta möjliggör en ny sorts problemlösning som använder visuella och textuella resonemang, vilket återspeglas i deras topprestanda i multimodala benchmark-tester.

Användare kan ladda upp en bild på en whiteboard, ett diagram från en lärobok eller en handritad skiss, och modellen kan tolka den, även om bilden är suddig, spegelvänd eller av låg kvalitet. Genom att använda verktyg kan modellerna manipulera bilder i farten. De kan rotera, zooma och omvandla dem som en del av sin resonemangsprocess.

Dessa modeller levererar branschledande precision på uppgifter som rör visuell perception, vilket gör att de kan lösa frågor som tidigare var omöjliga. Kolla upp forskningsbloggen om visuellt resonemang⁠ för att lära dig mer.

På väg mot självständig användning av verktyg.

OpenAI o3 och o4-mini har fullständig tillgång till verktyg inom ChatGPT, samt dina egna anpassade verktyg via funktionsanrop i API:et. Dessa modeller har tränats till att resonera om hur problemen ska lösas, välja när och hur de ska använda verktygen för att snabbt skapa detaljerade och tankeväckande svar i rätt format – vanligtvis inom en minut.

En användare kan t.ex. fråga: "Hur kommer energiförbrukningen i Kalifornien att se ut i sommar jämfört med förra året?" Modellen kan söka på nätet efter data från allmännyttiga tjänster, skriva Python-kod för att skapa en prognos, generera ett diagram eller en bild och förklara de viktigaste faktorerna bakom prognosen genom att länka flera verktygsanrop. Resonemang gör det möjligt för modellerna att reagera och anpassa sig efter informationen de hittar. De kan t.ex. söka på nätet flera gånger med hjälp av sökleverantörer, analysera resultaten och justera sina sökningar för att hitta mer relevant information.

Det här flexibla, strategiska tillvägagångssättet gör att modellerna kan klara av uppgifter som kräver åtkomst till aktuell information utöver modellens inbyggda kunskap, fördjupat resonemang, syntes och generering av resultat över olika modaliteter.

Alla exempel genomfördes med OpenAI o3.

OpenAI o3

Solve the following very hard math problem using your in-built knowledge of the literature:

Construct a degree 19 polynomial \ (p(x)) \ in \ mathbb{C}[x] such that \ (X := \ {\, p(x) = p(y) \, \} \ subset \ mathbb{P}^{1} \ times \ mathbb{P}^{1}\ ) has at least 3 (but not all linear) irreducible components over \ mathbb{C}. Choose \ (p(x)\ ) to be odd, monic, have real coefficients and linear coefficient \ (-19\ ) and calculate \ (p(19)\ ).

Resonerade om polynomkonstruktion i 55 sekunder

The curve defined by p(x) = p(y) factors if p(x) is decomposable or has repeated factors. Actually, p(x)-p(y) always factors, and it’s divisible by (x-y). This gives one factor, and the rest is a degree d-1 polynomial in x and y. For the curve to have at least three irreducible components, p(x)-p(y) must factor into at least three nontrivial factors. Each factor corresponds to a component in projective space, and at least one must be nonlinear.
I’m checking the Dickson polynomials D_n(x,a) and focusing on their coefficients. With a=1, it seems the leading coefficient is always 1, confirming that Dickson polynomials are monic. The linear coefficient for odd n is following a predictable sign pattern: for n=19, it gives a coefficient of -19, which is exactly what I need. So the Dickson polynomial D_n(x,1) with odd n fits nicely with the linear coefficient I was looking for.
I've confirmed that the linear coefficient for p(x)=D19(x)p(x) = D_{19}(x)p(x)=D19(x) is correct, with the necessary scaling factor to match. Now for the next step, I need to compute D19(19)D_{19}(19)D19(19). Since Tn(z)T_n(z)Tn(z) grows quickly for real z>1z > 1z>1, I plan to compute this value using Python, leveraging the recurrence to avoid mistakes—it's going to be a big number. I'll make sure to present the numeric result neatly so it's understandable since the coefficients are integers.
The Dickson polynomial D_{19}(x,1) is confirmed to have the required properties: monic, odd, real coefficients, and a linear coefficient of -19. The factorization of D_{19}(x) into irreducible components is also verified and satisfies the condition of having at least 10 components (1 linear + 9 quadratics). To compute p(19), we'll use the recurrence relation for Dickson polynomials, but there's also a closed-form expression involving cosine that could be handy here. I'll proceed accordingly!
I confirmed the linear coefficient is working correctly, which means now I need to calculate p(19)=D19(19)p(19) = D_{19}(19)p(19)=D19(19). This involves evaluating T19(9.5)T_{19}(9.5)T19(9.5), which grows rapidly. To ensure I get an accurate result, I'll compute this using recurrence in Python. The result is a large number: 1,876,572,071,974,094,803,391,179. I'll use the commas to make it easier to read: p(19)=1,876,572,071,974,094,803,391,179p(19) = 1,876,572,071,974,094,803,391,179p(19)=1,876,572,071,974,094,803,391,179.
For a = 1, there’s a relationship between Dickson polynomials and Chebyshev polynomials: D_n(x, 1) = 2^(n-1) T_n(x/2). Checking this, we see that the definition of D_n(u + 1/u) aligns well with Chebyshev’s formula. By setting x = 2 cos(θ), we find that D_n(x) equals 2 T_n(x/2). Importantly, the leading coefficient works out to 1, confirming the identity holds. This is nice!
Now, I need to verify that p(x)−p(y)p(x) - p(y)p(x)−p(y) factors as desired, relying on the known Dickson polynomial factorization. According to the literature (like Fried and Jarden), the difference Dn(x)−Dn(y)D_n(x) - D_n(y)Dn(x)−Dn(y) factors into a product involving (x−y)(x - y)(x−y) and other expressions. I'll provide the explicit polynomial D19(x,1)D_{19}(x, 1)D19(x,1), list the coefficients, and explain how it satisfies the desired properties: monic, odd, etc. Lastly, I'll compute p(19)p(19)p(19).

Analyzed