Prioritetsbearbetning för API-kunder

Det här erbjudandet är tillgängligt för Enterprise-kunder. Kontakta vårt försäljningsteam⁠ för mer information.

Med prioritetsbearbetning får du tillförlitlig höghastighetsprestanda med möjligheten till pay-as-you-go-betalning.

Med prioritetsbearbetning får du tillgång till följande:

Pålitligt låg latens: Med prioritetsbearbetning genereras tokens snabbare och i en jämnare takt än med standardbearbetning, även när efterfrågan är hög.
Användarvänlig flexibilitet: Liksom standardbearbetning kan prioritetsbearbetning användas flexibelt med pay-as-you-go-betalning och kräver ingen förhandsprovisionering.

	Pris per 1 miljon indatatokens	Pris per 1 miljon indatatokens (cachade)	Pris per 1 miljon utdatatokens	Drifttid SLA³	Latens SLA³
GPT-5.1 exkluderar lång kontext¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tokens per sekund²
GPT-5 exkluderar lång kontext¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tokens per sekund²
GPT-5 mini exkluderar lång kontext¹	0,45 US$	0,045 US$	3,60 US$	99,9 %	99 % > 80 tokens per sekund²
GPT-5.1 codex exkluderar lång kontext¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tokens per sekund²
GPT-5 codex exkluderar lång kontext¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tokens per sekund²
GPT-4.1 exkluderar lång kontext¹	3,50 US$	0,875 US$	14,00 US$	99,9 %	99 % > 80 tokens per sekund²
GPT-4.1 mini exkluderar lång kontext¹	0,70 US$	0,175 US$	2,80 US$	99,9 %	99 % > 90 tokens per sekund²
GPT-4.1 nano exkluderar lång kontext¹	0,20 US$	0,050 US$	0,80 US$	99,9 %	99 % > 100 tokens per sekund²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	4,25 US$	2,125 US$	17,00 US$	99,9 %	99 % > 80 tokens per sekund²
gpt-4o-2024-05-13	8,75 US$	—	26,25 US$	99,9 %	99 % > 80 tokens per sekund²
GPT-4o mini	0,25 US$	0,125 US$	1,00 US$	99,9 %	99 % > 90 tokens per sekund²
o3	3,50 US$	0,875 US$	14,00 US$	99,9 %	99 % > 80 tokens per sekund²
o4-mini	2,00 US$	0,500 US$	8,00 US$	99,9 %	99 % > 90 tokens per sekund²

1Förfrågningar uppskattade till >128 000 prompttokens

2Beräknat som medianlatens (p50) för förfrågningar under varje 5-minutersperiod. För kunder med befintliga företagsavtal som har latens-SLA:er beräknade som medianlatens (p50) för förfrågningar per minut, gäller de tidigare SLA:erna fortfarande.

3Detta gäller endast Enterprise-kunder

Så här fungerar det

Kunder kan omdirigera trafik till prioritetsbearbetning, en begäran i taget, med hjälp av den befintliga service_tier-parametern. Bara välj service_tier = “priority”.

Tokens som använder prioritetsbearbetning faktureras per token, med en högre prispunkt än standardbearbetning.

Utöver konfiguration på begärandenivå har vi även planer på att snart göra det tillgängligt på projektnivå.

Begränsningar

Prioritetsbearbetning delar frekvensgränser med andra tjänstenivåer.
I sällsynta fall kan en snabb ökning av tokens för prioritetsbearbetning per minut leda till att gränser för ökningsfrekvens överskrids. Om denna gräns överskrids kan ytterligare trafik komma att skickas till standardbearbetning istället.

Prissättning

Scale Tier förblir avskilt från prioritetsbearbetning.

Begäranden som skickas till prioritetsbearbetning faktureras separat och räknas inte in i de Scale Tier TPM-paket som du har köpt.

Modeller

Inte som det ser ut nu. Framöver kommer vi överväga att erbjuda prioritetsbearbetning även med andra produkter, utöver våra senaste modeller.

Frekvensgränser

Användning av prioritetsbearbetning hanteras på samma sätt som vanlig API-trafik vad gäller frekvensgränser.

Prioritetsbearbetning har gränser för ökningsfrekvens i syfte att säkerställa konsekvent hög prestanda för alla kunder, och samtidigt erbjuda flexibel prissättning på begäran. Om (a) prestanda för prioritetsbearbetning nedgraderas OCH (b) kundens trafik ökar alltför snabbt, så kan vissa prioritetsbegäranden komma att nedgraderas till standardbearbetning istället.

Den aktuella gränsen för ökningsfrekvens vid prioritetsbearbetning är bearbetning av minst 100 000 TPM och en ökning av trafiken på >50 % tokens per minut under mindre än 15 minuter.

Begäranden som bearbetas med standardtjänstenivå faktureras med standardpriser och är inte berättigade för prioritetsbearbetningens tjänstenivåmål.

Begäranden som bearbetas med standardtjänstenivå har service_tier=”Default” i svaret.

Bästa praxis för att hålla dig inom gränsen för frekvensökning

Öka trafiken gradvis när du byter modell. Om din applikation exempelvis övergår från en tidigare ögonblicksbild till en ny, kan du använda ett funktionsreglage för att flytta över trafiken under några timmars tid, istället för all trafik på en gång.
Undvik att använda prioritetsbearbetning när du bearbetar stora mängder data eller asynkrona jobb. Den typen av jobb kan öka trafiken väldigt snabbt och behöver sällan prioritetsbearbetningens förbättrade prestanda.
Om du ofta stöter på gränsen för ökningsfrekvens kan du överväga att köpa Scale Tier-kapacitet, antingen istället för eller utöver prioritetsbearbetning.

Tillförlitlighet

Kontakta din AD om du har frågor eller funderingar.

SLA:er för prioritetsbearbetning hanteras på samma sätt som SLA:er för Scale Tier, dvs. tjänstekrediter utfärdas om vi inte lyckas uppfylla SLA:erna för kunder med företagsavtal under en viss tidsperiod.

Prioritetsbearbetning för API-kunder

Så här fungerar det

Begränsningar

Prissättning

Hur interagerar detta med Scale Tier?

Kan jag automatiskt skicka överbliven trafik från Scale Tier till prioritetsbearbetning?

Är mitt årsavtal kopplat till en specifik typ av bearbetning?

Får jag fortfarande rabatt på cachade indatatokens?

Var hittar jag min användning och mina utgifter för prioritetsbearbetning?

Modeller

Kan prioritetsbearbetning användas med lång kontext, finjusterade modeller, inbäddningar osv.?

Hur fungerar andra funktioner med prioritetsbearbetning?

Kommer framtida modeller att ha stöd för den här funktionen?

Frekvensgränser

Vilka är frekvensgränserna?

Vilka är gränserna för ökningsfrekvens?

Delas gränser för ökningsfrekvens mellan olika projekt eller organisationer?

Tillförlitlighet

Vad händer om latensmålet inte uppnås?

Policyer

Är prioritetsbearbetning kompatibelt med datahemvist?

Är prioritetsbearbetning kompatibel med ZDR och BAA?