Gå direkt till huvudinnehåll
OpenAI

Prioritetsbearbetning för API-kunder

Prioritetsbearbetning erbjuder tillförlitlig höghastighetsprestanda med flexibiliteten att betala per användning.

Med prioritetsbearbetning får du tillgång till följande:

  • Förutsägbar låg latens: Prioriterad bearbetning genererar tokens snabbare och med en mer jämn hastighet än standardbearbetningstjänsten, även under perioder med hög efterfrågan.
  • Användarvänlig flexibilitet: Precis som standardbearbetning kan prioritetbearbetning användas på en flexibel, pay-as-you-go-basis istället för att kräva förskottsbetalning.
Pris per 1 miljon indatatokensPris per 1 miljon indatatokens (cachade)Pris per 1 miljon utdatatokensDrifttid SLA3Latens SLA3
GPT-5.2
exkluderar lång kontext1
3,50 US$0,350 US$28,00 US$99,9 %99 % > 50 tokens per sekund2
GPT-5.1
exkluderar lång kontext1
2,50 US$0,250 US$20,00 US$99,9 %99 % > 50 tokens per sekund2
GPT-5
exkluderar lång kontext1
2,50 US$0,250 US$20,00 US$99,9 %99 % > 50 tokens per sekund2
GPT-5 mini
exkluderar lång kontext1
0,45 US$0,045 US$3,60 US$99,9 %99 % > 80 tokens per sekund2
GPT-5.1 codex
exkluderar lång kontext1
2,50 US$0,250 US$20,00 US$99,9 %99 % > 50 tokens per sekund2
GPT-5 codex
exkluderar lång kontext1
2,50 US$0,250 US$20,00 US$99,9 %99 % > 50 tokens per sekund2
GPT-4.1
exkluderar lång kontext1
3,50 US$0,875 US$14,00 US$99,9 %99 % > 80 tokens per sekund2
GPT-4.1 mini
exkluderar lång kontext1
0,70 US$0,175 US$2,80 US$99,9 %99 % > 90 tokens per sekund2
GPT-4.1 nano
exkluderar lång kontext1
0,20 US$0,050 US$0,80 US$99,9 %99 % > 100 tokens per sekund2
GPT-4o
gpt-4o-2024-11-20
gpt-4o-2024-08-06
4,25 US$2,125 US$17,00 US$99,9 %99 % > 80 tokens per sekund2
gpt-4o-2024-05-13
8,75 US$26,25 US$99,9 %99 % > 80 tokens per sekund2
GPT-4o mini
0,25 US$0,125 US$1,00 US$99,9 %99 % > 90 tokens per sekund2
o3
3,50 US$0,875 US$14,00 US$99,9 %99 % > 80 tokens per sekund2
o4-mini
2,00 US$0,500 US$8,00 US$99,9 %99 % > 90 tokens per sekund2
1Förfrågningar uppskattade till >128 000 prompttokens
2Beräknat som medianlatens (p50) för förfrågningar under varje 5-minutersperiod. För kunder med befintliga företagsavtal som har latens-SLA:er beräknade som medianlatens (p50) för förfrågningar per minut, gäller de tidigare SLA:erna fortfarande.
3Detta gäller endast Enterprise-kunder

Så här fungerar det

Kunder kan omdirigera trafik till prioritetsbearbetning, en begäran i taget, med hjälp av den befintliga service_tier-parametern. Bara välj service_tier = “priority”.

Tokens som använder prioritetsbearbetning faktureras per token, med en högre prispunkt än standardbearbetning. 

Förutom att konfigureras på begäran kan du också ange ett projekt som standard till Prioritet i Projektinställningar → Standardtjänstnivå: Prioritet. Du kan fortfarande åsidosätta för varje begäran.

Begränsningar

  • Prioritetsbearbetningsgränser delas med andra tjänstenivåer. 
  • I sällsynta fall kan en snabb ökning av tokens för prioritetsbearbetning per minut leda till att gränser för ökningsfrekvens överskrids. Om denna gräns överskrids kan ytterligare trafik komma att skickas till standardbearbetning istället.

Priser

Scale Tier förblir avskilt från prioritetsbearbetning.

Begäranden som skickas till prioritetsbearbetning faktureras separat och räknas inte in i de Scale Tier TPM-paket som du har köpt.

Modeller

Inte som det ser ut nu. Framöver kommer vi överväga att erbjuda prioritetsbearbetning även med andra produkter, utöver våra senaste modeller.

Frekvensgränser

Användning av prioritetsbearbetning hanteras på samma sätt som vanlig API-trafik vad gäller frekvensgränser.

Tillförlitlighet

Företagskunder ska kontakta sin AD vid frågor eller funderingar. 

SLA:er för prioritetsbearbetning hanteras på samma sätt som SLA:er för Scale Tier, dvs. tjänstekrediter utfärdas om vi inte lyckas uppfylla SLA:erna för kunder med företagsavtal under en viss tidsperiod.

Policyer

Ja