Gå direkt till huvudinnehåll
OpenAI

Prioritetsbearbetning för API-kunder

Det här erbjudandet är tillgängligt för Enterprise-kunder. Kontakta vårt försäljningsteam för mer information.

Med prioritetsbearbetning får du tillförlitlig höghastighetsprestanda med möjligheten till pay-as-you-go-betalning.

Med prioritetsbearbetning får du tillgång till följande:

  • Pålitligt låg latens: Med prioritetsbearbetning genereras tokens snabbare och i en jämnare takt än med standardbearbetning, även när efterfrågan är hög.
  • Användarvänlig flexibilitet: Liksom standardbearbetning kan prioritetsbearbetning användas flexibelt med pay-as-you-go-betalning och kräver ingen förhandsprovisionering.
Pris per 1 miljon indatatokensPris per 1 miljon indatatokens (cachade)Pris per 1 miljon utdatatokensDrifttid SLA3Latens SLA3
GPT-5.1
exkluderar lång kontext1
2,50 US$0,250 US$20,00 US$99,9 %99 % > 50 tokens per sekund2
GPT-5
exkluderar lång kontext1
2,50 US$0,250 US$20,00 US$99,9 %99 % > 50 tokens per sekund2
GPT-5 mini
exkluderar lång kontext1
0,45 US$0,045 US$3,60 US$99,9 %99 % > 80 tokens per sekund2
GPT-5.1 codex
exkluderar lång kontext1
2,50 US$0,250 US$20,00 US$99,9 %99 % > 50 tokens per sekund2
GPT-5 codex
exkluderar lång kontext1
2,50 US$0,250 US$20,00 US$99,9 %99 % > 50 tokens per sekund2
GPT-4.1
exkluderar lång kontext1
3,50 US$0,875 US$14,00 US$99,9 %99 % > 80 tokens per sekund2
GPT-4.1 mini
exkluderar lång kontext1
0,70 US$0,175 US$2,80 US$99,9 %99 % > 90 tokens per sekund2
GPT-4.1 nano
exkluderar lång kontext1
0,20 US$0,050 US$0,80 US$99,9 %99 % > 100 tokens per sekund2
GPT-4o
gpt-4o-2024-11-20
gpt-4o-2024-08-06
4,25 US$2,125 US$17,00 US$99,9 %99 % > 80 tokens per sekund2
gpt-4o-2024-05-13
8,75 US$26,25 US$99,9 %99 % > 80 tokens per sekund2
GPT-4o mini
0,25 US$0,125 US$1,00 US$99,9 %99 % > 90 tokens per sekund2
o3
3,50 US$0,875 US$14,00 US$99,9 %99 % > 80 tokens per sekund2
o4-mini
2,00 US$0,500 US$8,00 US$99,9 %99 % > 90 tokens per sekund2
1Förfrågningar uppskattade till >128 000 prompttokens
2Beräknat som medianlatens (p50) för förfrågningar under varje 5-minutersperiod. För kunder med befintliga företagsavtal som har latens-SLA:er beräknade som medianlatens (p50) för förfrågningar per minut, gäller de tidigare SLA:erna fortfarande.
3Detta gäller endast Enterprise-kunder

Så här fungerar det

Kunder kan omdirigera trafik till prioritetsbearbetning, en begäran i taget, med hjälp av den befintliga service_tier-parametern. Bara välj service_tier = “priority”.

Tokens som använder prioritetsbearbetning faktureras per token, med en högre prispunkt än standardbearbetning. 

Utöver konfiguration på begärandenivå har vi även planer på att snart göra det tillgängligt på projektnivå.

Begränsningar

  • Prioritetsbearbetning delar frekvensgränser med andra tjänstenivåer. 
  • I sällsynta fall kan en snabb ökning av tokens för prioritetsbearbetning per minut leda till att gränser för ökningsfrekvens överskrids. Om denna gräns överskrids kan ytterligare trafik komma att skickas till standardbearbetning istället.

Prissättning

Scale Tier förblir avskilt från prioritetsbearbetning.

Begäranden som skickas till prioritetsbearbetning faktureras separat och räknas inte in i de Scale Tier TPM-paket som du har köpt.

Modeller

Inte som det ser ut nu. Framöver kommer vi överväga att erbjuda prioritetsbearbetning även med andra produkter, utöver våra senaste modeller.

Frekvensgränser

Användning av prioritetsbearbetning hanteras på samma sätt som vanlig API-trafik vad gäller frekvensgränser.

Tillförlitlighet

Kontakta din AD om du har frågor eller funderingar. 

SLA:er för prioritetsbearbetning hanteras på samma sätt som SLA:er för Scale Tier, dvs. tjänstekrediter utfärdas om vi inte lyckas uppfylla SLA:erna för kunder med företagsavtal under en viss tidsperiod.

Policyer

Ja