Prioritetsbearbetning för API-kunder

Prioritetsbearbetning erbjuder tillförlitlig höghastighetsprestanda med flexibiliteten att betala per användning.

Med prioritetsbearbetning får du tillgång till följande:

Förutsägbar låg latens: Prioriterad bearbetning genererar tokens snabbare och med en mer jämn hastighet än standardbearbetningstjänsten, även under perioder med hög efterfrågan.
Användarvänlig flexibilitet: Precis som standardbearbetning kan prioritetbearbetning användas på en flexibel, pay-as-you-go-basis istället för att kräva förskottsbetalning.

	Pris per 1 miljon indatatokens	Pris per 1 miljon indatatokens (cachade)	Pris per 1 miljon utdatatokens	Drifttid SLA³	Latens SLA³
GPT-5.2 exkluderar lång kontext¹	3,50 US$	0,350 US$	28,00 US$	99,9 %	99 % > 50 tokens per sekund²
GPT-5.1 exkluderar lång kontext¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tokens per sekund²
GPT-5 exkluderar lång kontext¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tokens per sekund²
GPT-5 mini exkluderar lång kontext¹	0,45 US$	0,045 US$	3,60 US$	99,9 %	99 % > 80 tokens per sekund²
GPT-5.1 codex exkluderar lång kontext¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tokens per sekund²
GPT-5 codex exkluderar lång kontext¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tokens per sekund²
GPT-4.1 exkluderar lång kontext¹	3,50 US$	0,875 US$	14,00 US$	99,9 %	99 % > 80 tokens per sekund²
GPT-4.1 mini exkluderar lång kontext¹	0,70 US$	0,175 US$	2,80 US$	99,9 %	99 % > 90 tokens per sekund²
GPT-4.1 nano exkluderar lång kontext¹	0,20 US$	0,050 US$	0,80 US$	99,9 %	99 % > 100 tokens per sekund²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	4,25 US$	2,125 US$	17,00 US$	99,9 %	99 % > 80 tokens per sekund²
gpt-4o-2024-05-13	8,75 US$	—	26,25 US$	99,9 %	99 % > 80 tokens per sekund²
GPT-4o mini	0,25 US$	0,125 US$	1,00 US$	99,9 %	99 % > 90 tokens per sekund²
o3	3,50 US$	0,875 US$	14,00 US$	99,9 %	99 % > 80 tokens per sekund²
o4-mini	2,00 US$	0,500 US$	8,00 US$	99,9 %	99 % > 90 tokens per sekund²

1Förfrågningar uppskattade till >128 000 prompttokens

2Beräknat som medianlatens (p50) för förfrågningar under varje 5-minutersperiod. För kunder med befintliga företagsavtal som har latens-SLA:er beräknade som medianlatens (p50) för förfrågningar per minut, gäller de tidigare SLA:erna fortfarande.

3Detta gäller endast Enterprise-kunder

Så här fungerar det

Kunder kan omdirigera trafik till prioritetsbearbetning, en begäran i taget, med hjälp av den befintliga service_tier-parametern. Bara välj service_tier = “priority”.

Tokens som använder prioritetsbearbetning faktureras per token, med en högre prispunkt än standardbearbetning.

Förutom att konfigureras på begäran kan du också ange ett projekt som standard till Prioritet i Projektinställningar → Standardtjänstnivå: Prioritet. Du kan fortfarande åsidosätta för varje begäran.

Begränsningar

Prioritetsbearbetningsgränser delas med andra tjänstenivåer.
I sällsynta fall kan en snabb ökning av tokens för prioritetsbearbetning per minut leda till att gränser för ökningsfrekvens överskrids. Om denna gräns överskrids kan ytterligare trafik komma att skickas till standardbearbetning istället.

Priser

Scale Tier förblir avskilt från prioritetsbearbetning.

Begäranden som skickas till prioritetsbearbetning faktureras separat och räknas inte in i de Scale Tier TPM-paket som du har köpt.

Modeller

Inte som det ser ut nu. Framöver kommer vi överväga att erbjuda prioritetsbearbetning även med andra produkter, utöver våra senaste modeller.

Frekvensgränser

Användning av prioritetsbearbetning hanteras på samma sätt som vanlig API-trafik vad gäller frekvensgränser.

Prioritetsbearbetning har gränser för ökningsfrekvens i syfte att säkerställa konsekvent hög prestanda för alla kunder, och samtidigt erbjuda flexibel prissättning på begäran. Om (a) prestanda för prioritetsbearbetning nedgraderas OCH (b) kundens trafik ökar alltför snabbt, så kan vissa prioritetsbegäranden komma att nedgraderas till standardbearbetning istället.

Den aktuella gränsen för ökningsfrekvens vid prioritetsbearbetning är bearbetning av minst 100 000 TPM och en ökning av trafiken på >50 % tokens per minut under mindre än 15 minuter.

Begäranden som bearbetas med standardtjänstenivå faktureras med standardpriser och är inte berättigade för prioritetsbearbetningens tjänstenivåmål.

Begäranden som bearbetas med standardtjänstenivå har service_tier=”Default” i svaret.

Bästa praxis för att hålla dig inom gränsen för frekvensökning

Öka trafiken gradvis när du byter modell. Om din applikation exempelvis övergår från en tidigare ögonblicksbild till en ny, kan du använda ett funktionsreglage för att flytta över trafiken under några timmars tid, istället för all trafik på en gång.
Undvik att använda prioritetsbearbetning när du bearbetar stora mängder data eller asynkrona jobb. Den typen av jobb kan öka trafiken väldigt snabbt och behöver sällan prioritetsbearbetningens förbättrade prestanda.
Om du ofta stöter på gränsen för ökningsfrekvens kan du överväga att köpa Scale Tier-kapacitet, antingen istället för eller utöver prioritetsbearbetning.

Tillförlitlighet

Företagskunder ska kontakta sin AD vid frågor eller funderingar.

SLA:er för prioritetsbearbetning hanteras på samma sätt som SLA:er för Scale Tier, dvs. tjänstekrediter utfärdas om vi inte lyckas uppfylla SLA:erna för kunder med företagsavtal under en viss tidsperiod.

Prioritetsbearbetning för API-kunder

Så här fungerar det

Begränsningar

Priser

(För Enterprise-kunder) Hur fungerar detta med Scale Tier?

(För Enterprise-kunder) Kan jag automatiskt skicka min överblivna Scale Tier-trafik till prioritetsbearbetning?

(För Enterprise-kunder) Är mitt årsavtal kopplat till ett specifikt bearbetningsläge?

Får jag fortfarande rabatt på cachade indatatokens?

Var hittar jag min användning och mina utgifter för prioritetsbearbetning?

Modeller

Kan prioritetsbearbetning användas med lång kontext, finjusterade modeller, inbäddningar osv.?

Hur fungerar andra funktioner med prioritetsbearbetning?

Kommer framtida modeller att ha stöd för den här funktionen?

Frekvensgränser

Vilka är frekvensgränserna?

Vilka är gränserna för ökningsfrekvens?

Delas gränser för ökningsfrekvens mellan olika projekt eller organisationer?

Tillförlitlighet

(För företagskunder) Vad händer om latensmålet inte uppnås?

Policyer

Är prioritetsbearbetning kompatibelt med datahemvist?

Är prioritetsbearbetning kompatibel med ZDR och BAA?