Vi presenterar OpenAI o3 och o4-mini
Våra hittills smartaste och kraftfullaste modeller med fullständig tillgång till verktyg
Uppdaterad den 10 juni 2025: OpenAI o3‑pro finns nu för Pro-användare i ChatGPT och genom vårt API. OpenAI o1‑pro, o3‑pro är en variant av vår smartaste modell, OpenAI o3, som är utformad för att tänka längre och ge de mest tillförlitliga svaren. Fullständiga detaljer finns i våra lanseringsmeddelanden(öppnas i ett nytt fönster).
Idag släpper vi OpenAI o3 och o4-mini, de senaste modellerna i vår o-serie som är tränade att tänka längre innan de svarar. Modellerna är de smartaste vi har släppt hittills och representerar en markant förändring i ChatGPT:s funktioner för alla, från nyfikna användare till erfarna forskare. För första gången kan våra resonemangsmodeller på egen hand använda och kombinera alla verktyg inom ChatGPT. Detta inkluderar webbsökning, analysera uppladdade filer och andra data med Python, resonera djupgående om visuell indata och till och med generera bilder. Avgörande är att dessa modeller har tränats till att resonera kring när och hur de ska använda verktygen för att ge detaljerade och tankeväckande svar i rätt format – vanligtvis inom en minut – för att lösa mer komplexa problem. Det gör att de kan hantera flerdimensionella frågor mer effektivt – ett steg närmare en mer självständig ChatGPT som på egen hand kan utföra uppgifter åt dig. Den samlade kraften i toppmodernt resonemang med fullständig tillgång till verktyg innebär mycket bättre prestanda både vad gäller akademiska riktmärken och verkliga uppgifter, vilket sätter en ny standard för både intelligens och användbarhet.
OpenAI o3 är vår mest kraftfulla resonemangsmodell som tänjer på gränserna inom kodning, matematik, teknik, visuell perception med mera. Den uppnår toppresultat i benchmark-tester som Codeforces, SWE-bench (utan att behöva någon modellanpassad struktur) och MMMU. Den är perfekt för komplexa frågor som kräver flerdimensionell analys och svar som kanske inte är direkt uppenbara. Den presterar särskilt bra på visuella uppgifter, såsom att analysera bilder, diagram och grafik. Vid utvärderingar av externa experter begår o3 20 procent färre stora misstag än OpenAI o1 på svåra, verkliga uppgifter. Den utmärker sig särskilt inom områden som programmering, affärer/konsultation och kreativa idéer. Tidiga testare framhöll dess analytiska styrka som en tankepartner och poängterade dess förmåga att generera och kritiskt utvärdera nya hypoteser, särskilt inom biologi, matematik och tekniska sammanhang.
OpenAI o4-mini är en mindre modell som har optimerats för snabba, kostnadseffektiva resonemang. Den har en enastående prestanda för sin storlek och kostnad, särskilt inom matematik, kodning och visuella uppgifter. Den toppar benchmark-resultaten för modeller på AIME 2024 och 2025. Även om tillgång till en dator avsevärt minskar svårighetsgraden för AIME-provet, tyckte vi också att det var anmärkningsvärt att o4-mini uppnår 99,5 % pass@1 (100 % consensus@8) på AIME 2025 när den ges tillgång till en Python-tolk. Även om resultaten inte ska jämföras med modeller utan verktygstillgång är de ett exempel på hur effektivt o4-mini utnyttjar tillgängliga verktyg. o3 visar liknande förbättringar på AIME 2025 vid användning av verktyg (98,4 % pass@1, 100 % consensus@8).
Vid expertutvärderingar överträffar o4-mini även sin föregångare, o3‑mini, på icke-STEM-uppgifter samt inom områden som datavetenskap. Tack vare sin effektivitet stödjer o4-mini mycket högre användningsbegränsningar än o3. Det gör den till ett perfekt alternativ för stora datamängder och vid frågor som kräver resonemang. Externa expertutvärderare ansåg att båda modellerna hade bättre förmåga att följa instruktioner och gav mer användbara, verifierbara svar än deras föregångare, tack vare förbättrad intelligens och inkludering av webbkällor. I jämförelse med våra tidigare resonemangsmodeller ska dessa två modeller också kännas naturligare och mer samtalsmässiga, särskilt eftersom de refererar till minnen och tidigare konversationer för att göra svaren mer personliga och relevanta.
Multimodal
Kodning
All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.
Förmåga att följa instruktioner och använda verktyg självständigt
Vid utvärderingar har modellerna konfigurerats till högsta resonemangsnivå, liknande modeller som ”o4-mini-high” i ChatGPT.
Under hela utvecklingen av OpenAI o3 har vi märkt att storskalig förstärkningsinlärning uppvisar samma trend av ”mer beräkning = bättre prestanda” som vi upptäckte i förträningen av GPT‑serien. Genom att upprepa skalningsprocessen, denna gång i verkligheten, har vi tänjt ytterligare på gränserna för både träningsberäkningen och resonemang i användningsögonblicket. Vi fortsätter att se tydliga prestandaförbättringar som bekräftar att modellernas prestanda blir bättre ju längre tid de får tänka. Med samma latens och kostnad som för OpenAI o1 levererar o3 bättre prestanda i ChatGPT, och vi har bekräftat att om vi låter den tänka längre, fortsätter prestandan att öka.
Vi har också tränat båda modellerna till att använda verktyg genom förstärkningsinlärning – vi lärde dem inte bara hur man använder verktygen utan att resonera sig fram till när de ska användas. Deras förmåga att använda verktyg baserat på önskade resultat gör dem mer kapabla vid öppna situationer, särskilt när det handlar om visuella resonemang och flerstegsarbetsflöden. Denna förbättring återspeglas både i akademiska riktmärken och verkliga uppgifter enligt rapporter från tidiga testare.

För första gången kan dessa modeller integrera bilder direkt i sin tankekedja. De inte bara ser bilden, de tänker med den. Detta möjliggör en ny sorts problemlösning som använder visuella och textuella resonemang, vilket återspeglas i deras topprestanda i multimodala benchmark-tester.
Användare kan ladda upp en bild på en whiteboard, ett diagram från en lärobok eller en handritad skiss, och modellen kan tolka den, även om bilden är suddig, spegelvänd eller av låg kvalitet. Genom att använda verktyg kan modellerna manipulera bilder i farten. De kan rotera, zooma och omvandla dem som en del av sin resonemangsprocess.
Dessa modeller levererar branschledande precision på uppgifter som rör visuell perception, vilket gör att de kan lösa frågor som tidigare var omöjliga. Kolla upp forskningsbloggen om visuellt resonemang för att lära dig mer.
OpenAI o3 och o4-mini har fullständig tillgång till verktyg inom ChatGPT, samt dina egna anpassade verktyg via funktionsanrop i API:et. Dessa modeller har tränats till att resonera om hur problemen ska lösas, välja när och hur de ska använda verktygen för att snabbt skapa detaljerade och tankeväckande svar i rätt format – vanligtvis inom en minut.
En användare kan t.ex. fråga: "Hur kommer energiförbrukningen i Kalifornien att se ut i sommar jämfört med förra året?" Modellen kan söka på nätet efter data från allmännyttiga tjänster, skriva Python-kod för att skapa en prognos, generera ett diagram eller en bild och förklara de viktigaste faktorerna bakom prognosen genom att länka flera verktygsanrop. Resonemang gör det möjligt för modellerna att reagera och anpassa sig efter informationen de hittar. De kan t.ex. söka på nätet flera gånger med hjälp av sökleverantörer, analysera resultaten och justera sina sökningar för att hitta mer relevant information.
Det här flexibla, strategiska tillvägagångssättet gör att modellerna kan klara av uppgifter som kräver åtkomst till aktuell information utöver modellens inbyggda kunskap, fördjupat resonemang, syntes och generering av resultat över olika modaliteter.
Alla exempel genomfördes med OpenAI o3.
OpenAI o3
OpenAI o1
OpenAI o3 svarar rätt utan att använda sökning, medan o1 inte lyckas leverera ett korrekt svar.
Främja kostnadseffektiva resonemang
Kostnad kontra prestanda: o3-mini och o4-mini


Kostnad kontra prestanda: o1 och o3


OpenAI o3 och o4-mini är de intelligentaste modellerna vi någonsin har släppt, och de är också ofta effektivare än sina föregångare, OpenAI o1 och o3‑mini. Till exempel, i matematiktävlingen AIME 2025 förbättras gränsen för kostnads-prestandagränsen för o3 avsevärt jämfört med o1, och på samma sätt förbättras gränsen för 04-mini avsevärt jämfört med o3‑mini. Mer generellt förväntar vi oss att o3 och o4-mini också kommer att vara både smartare och billigare än o1 respektive o3‑mini för de flesta användningsområden i verkligheten.
Varje förbättring av modellens kapacitet kräver motsvarande förbättringar av säkerheten. Vi har byggt om våra säkerhetsträningsdata helt för OpenAI o3 och o4-mini. Vi har lagt till nya avvisningsprompter inom områden som biologiska hot (biorisker), generering av skadlig kod och jailbreaks. Dessa uppdaterade data har gjort att o3 och o4-mini uppnår starka resultat på våra interna avvisnings-benchmarks (t.ex. instruktionshierarki, jailbreaks). Utöver starka resultat för modellavvisningar har vi även utvecklat åtgärder på systemnivå för att flagga skadliga prompter inom gränsöverskridande riskområden. Likt vårt tidigare arbete inom bildgenereringhar vi tränat en resonerande LLM-övervakare som arbetar enligt mänskligt skrivna och tolkningsbara säkerhetsspecifikationer. När den tillämpades på biorisker lyckades övervakaren flagga ~99 % av samtalen i vår mänskliga red teaming-kampanj.
Vi stresstestade båda modellerna med vårt mest rigorösa säkerhetsprogram hittills. I enlighet med vårt uppdaterade förberedelseramverk utvärderade vi o3 och o4-mini över de tre övervakade funktionsområdena som täcks av ramverket: biologiskt och kemiskt, cybersäkerhet och AI-självförbättring. Baserat på utvärderingarnas resultat har vi fastställt att både o3 och o4-mini håller sig under ramverkets ”höga” tröskelvärde inom alla tre kategorier. Vi har publicerat de detaljerade resultaten från dessa utvärderingar i det medföljande systemkortet.
Vi delar även ett nytt experiment: Codex CLI, en lättviktig kodningsagent som du kan köra från din terminal. Det fungerar direkt på din dator och är utformat för att maximera resonemangsförmågan hos modeller som o3 och o4-mini, med kommande stöd för ytterligare API-modeller som GPT‑4.1.
Du kan dra nytta av multimodalt resonemang från kommandoraden genom att ge skärmdumpar eller lågkvalitativa skisser till modellen, med åtkomst till din kod lokalt. Vi ser det som ett minimalt gränssnitt för att ansluta våra modeller till användare och deras datorer. Codex CLI är idag en helt öppen källkod på github.com/openai/codex(öppnas i ett nytt fönster).
Samtidigt lanserar vi ett initiativ värt 1 miljon dollar för att stödja projekt som använder Codex CLI och OpenAI-modeller. Vi kommer att stegvis utvärdera och acceptera ansökningar för bidrag på 25 000 USD i form av API-krediter. Förslag kan skickas in här.
ChatGPT Plus-, Pro- och Team-användare kommer att se o3, o4-mini och o4-mini-high i modellväljaren från och med idag, dessa ersätter o1, o3‑mini och o3‑mini‑high. ChatGPT Enterprise- och Edu-användare får åtkomst om en vecka. Gratisanvändare kan prova på o4-mini genom att välja ”Tänk” i kompositören innan de skickar in sin förfrågan. Gränserna för användning förblir oförändrade för alla abonnemang jämfört med tidigare modeller.
Vi förväntar oss att släppa OpenAI o3‑pro om några veckor med stöd för alla verktyg. För närvarande har Pro-användare fortfarande tillgång till o1‑pro.
Både o3 och o4-mini är också tillgängliga för utvecklare idag via API för slutförda chattar och svars-API (vissa utvecklare kommer att behöva verifiera sina organisationer(öppnas i ett nytt fönster) för att komma åt dessa modeller). Svars-API:et stödjer resonemangssammanfattningar, förmågan att bibehålla resonemangstokens runt funktionsanrop för bättre prestanda, och kommer snart att stödja inbyggda verktyg, som t.ex. webbsökning, filsökning och kodtolkare i modellens resonemang. Kom igång genom att utforska vår dokumentation(öppnas i ett nytt fönster) och håll utkik efter fler uppdateringar.
Dagens uppdateringar återspeglar i vilken riktning våra modeller är på väg. Vi slår samman o-seriens särskilda resonemangsförmågor med GPT‑seriens mer naturliga samtalsfunktioner och verktygsanvändning. Genom att förena dessa styrkor kommer våra framtida modeller att stödja sömlösa, naturliga samtal med proaktiv verktygsanvändning och avancerad problemlösning.
Uppdatering 16 april: resultaten för o3 på Charxiv-r och Mathvista har uppdaterats för att återspegla en systempromptsändring som inte inkluderades i den ursprungliga utvärderingen.
Författare
OpenAIFotnoter
* tau-bench-utvärderingssiffrorna är genomsnittliga över 5 körningar för att minska variansen, och körs utan några anpassade verktyg eller prompter. Vi har märkt att tau-bench-produkter för detaljhandeln är mer benägna att orsaka fel i användarmodellen. Siffrorna för den skuggade stapeln är beräknade med GPT-4.1 som användarmodell, eftersom den är mycket bättre än GPT-4o på att följa instruktioner.
* SWE-bench använder en kontextlängd på högst 256k , vilket ökar o4-mini:s lösningsfrekvens med 3 % och påverkar o3:s lösningsfrekvens med <1 %. Vi har också exkluderat 23 provexemplar som inte är körbara på vår interna infrastruktur.
** När man aktiverar webbsurfning kan modellen ibland hitta exakta svar online, t.ex. genom att läsa blogginlägg med exempelproblem från en datamängd. Vi minskar risken för att modellen fuskar medan den surfar med två strategier:
Blockerade domäner som vi tidigare har sett att modellen fuskat från.
Använde en resonemangsmodell som övervakare för att undersöka alla tokens i varje försök för att identifiera misstänkt beteende. Misstänkt beteende definieras som "en sida, fil eller utdrag vars huvudsyfte är att ge det exakta svaret på just denna fråga – t.ex. en officiell betygsnyckel, läckta "lösningar" eller diskussioner som citerar det slutliga svaret ordagrant". Godartat beteende definieras som ”Alla auktoritära resurser som en flitig person kan använda sig av (dokument, handböcker, vetenskapliga artiklar, välrenommerade artiklar) även om det råkar innehålla det rätta svaret.” Alla försök som övervakaren bedömde som misstänkta räknas som felaktiga. De flesta provexemplar som inte klarade av kontrollen var problem vars exakta lösning fanns tillgänglig på flera internetkällor utan koppling till HLE.
Avslutningsvis kanske våra utvärderingar med webbsurfning inte återges exakt i OpenAI API på grund av skillnader i sökmotorernas backend mellan ChatGPT och OpenAI API. Resultaten är avsedda att vara representativa för ChatGPT-användarupplevelsen, men beroende på efterfrågan kan sökkonfigurationen ändras över tid.
Contributors
Aaditya Singh, Aaron Schlesinger, Adam Fry, Adam Lerer, Adam Perelman, Adam Walker, Ahmed El-Kishky, Aidan Clark, Aidan McLaughlin, Aiden Low, Akila Welihinda, Akshay Nathan, Aleksander Madry, Aleksandra Spyra, Alex Karpenko, Alex Neitz, Alex Tachard Passos, Alex Wei, Alexander Prokofiev, Alexander Zielenski, Alexandra Barr, Alexey Ivanov, Alexi Christakis, Alfred Xue, Allison Tam, Ally Bennett, Ally Bennett , Amelia Liu, Amy McDonald Sandjideh, Ananya Kumar, Andre Saraiva, Andrea Vallone, Andrew Chen, Andrew Duberstein, Andrew Gibiansky, Andrew Kondrich, Andrew Tulloch, Andrey Mishchenko, Andy Applebaum, Andy Wang, Angela Baek, Annie Wei, Anting Shen, Antoine Pelisse, Anuj Saharan, Arun Vijayvergiya, Ashley Tyra, Ashvin Nair, Avi Nayak, Avital Oliver, Behrooz Ghorbani, Belinda Truong, Ben Sokolowsky, Beth Hoover, Bo Xu, Boaz Barak, Bohan Zhang, Borys Minaiev, Botao Hao, Bowen Baker, Bowen Cheng, Brandon McKinzie, Brandon Wang, Brian Hsu, Brian Yang, Brian Yu, Brian Zhang, Camillo Lugaresi, Carolina Paz, Carpus Chang, Cary Bassin , Cary Hudson, Casey Chu, Chak Li, Charles Zhao, Charlie Jatt, Charlotte Cole, Chelsea Voss, Chen Shen, Chengxu Zhuang, Chris Colby, Chris Hallacy , Chris Koch, Christina Kaplan, Christina Kim, Colin Reid, Colin Wei, Cristina Scheau, D. Sculley, Damien Deville, Dan Roberts, Dana Palmie, Dane Stuckey, Daniel Levine, David Hu, David Martin, David Robinson, David Sasaki, Davis Wu, Derek Chen, Dibya Bhattacharjee, Dimitris Tsipras, Dinghua Li, DJ Strouse, dmed Medina, Drew Hintz, Eddie Zhang, Edmund Wong, Elaine Ya Le, Eli Yani , Elizabeth Proehl, Emily Sokolova, Enoch Cheung, Eri Schwartz, Eric Mitchell, Eric Ning, Eric Sigler, Eric Wallace, Eugenio Panero, Evan Mays, Evgenii Nikishin, Fan Wang, Fangyuan Li, Filippo Raso, Foivos Tsimpourlas, Fouad Matin, Francis Song, Francis Zhang, Gary Yang, Gene Oden, Giambattista Parascandolo, Gildas Chabot, Grace Kim, Grace Zhao, Greg Brockman, Gregory Valiant, Guillaume Leclerc, Hadi Salman, Haitang Hu, Hannah Sheahan, Hao Sheng, Haoyu Wang, Henrique Ponde de Oliveira Pinto, Henry Aspegren, Heqing Yan, Hessam Bagherinezhad, Hongyu Ren, Hunter Lightman, Hyeonwoo Noh, Ian Kivlichan, Ian Sohl, Ignasi Clavera, Ikai Lan, Ilge Akkaya, Ilya Kostrikov, Irina Kofman, Isa Fulford, Jake Brill, Jakub Pachocki, James Betker, James Lee, James Qin, Jamie Kiros, Jason Ai, Jay Wang, Jean Harb, Jeff Mickey, Jeffrey Han, Jeffrey Wang, Jeremy Chen, Jerry Tworek, Jessica Liang, Jessica Shieh, Ji Lin, Jiahui Yu, Jianfeng Wang, Jie Tang, Jihan Yin, Jing Li, Joanne Jang, Joel Morris, Johannes Ferstad, Johannes Heidecke, John Fishbein, Jon Okun, Jonathan Gordon, Joost Huizinga, Jos Kraaijeveld, Joseph Mo, Josh Lawson , Josh Tobin, Junhua Mao, Kai Chen, Kai Hayashi, Karan Singhal, Karina Nguyen, Katy Shi, Kelly Stirman, Kenji Hata, Kenny Nguyen, Keren Gu-Lemberg, Kevin Gladstone, Kevin King, Kevin Liu, Kevin Lu, Kevin Park, Kevin Stone, Kevin Weil, Kevin Whinnery, Kevin Yu, Kote Mushegiani, Kristen Ying, Kristian Georgiev, Kshitij Gupta, Kyle Kosic, Lama Ahmad, Larry Lv, Lauren Itow, Lauren Yang, Lee Byron, Leo Chen, Leo Liu, Leon Maksin, Leyton Ho, Li Jing, Liang Xiong, Lin Yang, Linden Li, Lorenz Kuhn, Louis Feuvrier, Lu Zhang, Łukasz Kaiser, Mahmoud Eariby, Maja Trębacz, Manas Joglekar, Manoli Liodakis, Manuka Stratta, Mark Chen, Mark Hudnall, Mark Sun, Mark Wang, Martin Li, Marvin Zhang, Mateusz Litwin, Matt Jones, Matt Lim, Max Johnson, Max Schwarzer, Mayank Gupta, Meghan Shah, Mengqing Wang, Mengyuan Yan, Mia Glaese, Michael Bolin, Michael Lampe, Michael Malek, Michael Sharman, Michael Zhang, Michele Wang, Michelle Pokrass, Miguel Oom Temudo de Castro, Mihai Florian, Mike McClay, Mike Trpcic, Miki Habryn, Miles Wang, Ming Chen, Mingxuan Wang, Minnia Feng, Mitchell Gordon, Mo Bavarian, Mostafa Rohaninejad, Nacho Soto, Nakul Khanna, Nat McAleese, Natalie Staudacher, Natan LaFontaine, Neel Ajjarapu, Nick Felt, Nick Turley, Nikil Pancha, Nikita Mikhaylin, Niko Felix, Nikunj Handa, Ning Liu, Nishant Rai, Noah Jorgensen, Noam Brown, Oleg Boiko, Oleg Murk, Olivia Watkins, Olivier Godement, Oona Gleeson, Paul Ashbourne, Pavel Belov, Peter Flockhart, Peter Hoeschele, Peter Zhokhov, Philip Pronin, Phillip Guo, Phoebe Thacker, Prafulla Dhariwal, Prashanth R, Rachel Dias, Rahul Arora, Rajkumar Samuel, Rasmus Rygaard, Ravi Teja Mullapudi, Raymond Li, Raz Gaon, Reah Miyara, Reiichiro Nakano, Reimar Leike, Rennie Song, Rhythm Garg, RJ Marsan, Robert Xiong, Robin Brown, Roman Tsiupa, Rui Shu, Ruslan Nigmatullin, Saachi Jain, Saagar Patel, Sam Altman, Sam Toizer, Sam Toyer, Samir Ahmed, Samuel Miserendino, Samuel Wolrich , Sandhini Agarwal, Santiago Hernández, Sarah Dong, Savannah Heon, Scott Ethersmith, Scott Mayer McKinney, Sean Fitzgerald, Sever Banesiu, Shamez Hemani, Shengjia Zhao, Shengli Hu, Shibani Santurkar, Shreyas Krishnaswamy, Shuchao Bi, Shunyu Yao, Shuyuan Zhang, Simón Posada Fishman, Spencer Papay, Spug Golden, Srinivas Narayanan, Stanley Hsieh, Stephen Logsdon, Sundeep Tirumalareddy, Tal Stramer, Tao Wang, Tao Xin, Taylor Gordon, Tejal Patwardhan, Thibault Sottiaux, Tina Sriskandarajah, Tony Casparro, Tony Zhao, Trevor Creech, Uzair Navid Iftikhar, Valerie Qi, Vineet Kosaraju, Vishal Kuo, Vitchyr Pong, Vivek Verma, Vlad Petrov, Wenda Zhou, Wenlei Xie, Wenting Zhan, Will DePue, Will Ellsworth, William Sheu, Wyatt Thompson, Yaming Lin, Yann Dubois, Yaodong Yu, Yara Khakbaz, Yash Patil, Yifan Wu, Yilong Qin, Yining Chen, Yirui Zhang, Yo Shavit , Young Cha, Yunyun Wang, Yushi Wang, Zack Sultan, Zehao Dou, Zewei Chu, Zheng Shao, Zhigang Wang, Zhishuai Zhang, Zihao Zhang