Prioritetsbearbetning för API-kunder
Det här erbjudandet är tillgängligt för Enterprise-kunder. Kontakta vårt försäljningsteam för mer information.
Med prioritetsbearbetning får du tillförlitlig höghastighetsprestanda med möjligheten till pay-as-you-go-betalning.
Med prioritetsbearbetning får du tillgång till följande:
- Pålitligt låg latens: Med prioritetsbearbetning genereras tokens snabbare och i en jämnare takt än med standardbearbetning, även när efterfrågan är hög.
- Användarvänlig flexibilitet: Liksom standardbearbetning kan prioritetsbearbetning användas flexibelt med pay-as-you-go-betalning och kräver ingen förhandsprovisionering.
| Pris per 1 miljon indatatokens | Pris per 1 miljon indatatokens (cachade) | Pris per 1 miljon utdatatokens | Drifttid SLA3 | Latens SLA3 | |
|---|---|---|---|---|---|
GPT-5.1 exkluderar lång kontext1 | 2,50 US$ | 0,250 US$ | 20,00 US$ | 99,9 % | 99 % > 50 tokens per sekund2 |
GPT-5 exkluderar lång kontext1 | 2,50 US$ | 0,250 US$ | 20,00 US$ | 99,9 % | 99 % > 50 tokens per sekund2 |
GPT-5 mini exkluderar lång kontext1 | 0,45 US$ | 0,045 US$ | 3,60 US$ | 99,9 % | 99 % > 80 tokens per sekund2 |
GPT-5.1 codex exkluderar lång kontext1 | 2,50 US$ | 0,250 US$ | 20,00 US$ | 99,9 % | 99 % > 50 tokens per sekund2 |
GPT-5 codex exkluderar lång kontext1 | 2,50 US$ | 0,250 US$ | 20,00 US$ | 99,9 % | 99 % > 50 tokens per sekund2 |
GPT-4.1 exkluderar lång kontext1 | 3,50 US$ | 0,875 US$ | 14,00 US$ | 99,9 % | 99 % > 80 tokens per sekund2 |
GPT-4.1 mini exkluderar lång kontext1 | 0,70 US$ | 0,175 US$ | 2,80 US$ | 99,9 % | 99 % > 90 tokens per sekund2 |
GPT-4.1 nano exkluderar lång kontext1 | 0,20 US$ | 0,050 US$ | 0,80 US$ | 99,9 % | 99 % > 100 tokens per sekund2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | 4,25 US$ | 2,125 US$ | 17,00 US$ | 99,9 % | 99 % > 80 tokens per sekund2 |
gpt-4o-2024-05-13 | 8,75 US$ | — | 26,25 US$ | 99,9 % | 99 % > 80 tokens per sekund2 |
GPT-4o mini | 0,25 US$ | 0,125 US$ | 1,00 US$ | 99,9 % | 99 % > 90 tokens per sekund2 |
o3 | 3,50 US$ | 0,875 US$ | 14,00 US$ | 99,9 % | 99 % > 80 tokens per sekund2 |
o4-mini | 2,00 US$ | 0,500 US$ | 8,00 US$ | 99,9 % | 99 % > 90 tokens per sekund2 |
Så här fungerar det
Kunder kan omdirigera trafik till prioritetsbearbetning, en begäran i taget, med hjälp av den befintliga service_tier-parametern. Bara välj service_tier = “priority”.
Tokens som använder prioritetsbearbetning faktureras per token, med en högre prispunkt än standardbearbetning.
Utöver konfiguration på begärandenivå har vi även planer på att snart göra det tillgängligt på projektnivå.
Begränsningar
- Prioritetsbearbetning delar frekvensgränser med andra tjänstenivåer.
- I sällsynta fall kan en snabb ökning av tokens för prioritetsbearbetning per minut leda till att gränser för ökningsfrekvens överskrids. Om denna gräns överskrids kan ytterligare trafik komma att skickas till standardbearbetning istället.
Prissättning
Scale Tier förblir avskilt från prioritetsbearbetning.
Begäranden som skickas till prioritetsbearbetning faktureras separat och räknas inte in i de Scale Tier TPM-paket som du har köpt.
Modeller
Inte som det ser ut nu. Framöver kommer vi överväga att erbjuda prioritetsbearbetning även med andra produkter, utöver våra senaste modeller.
Frekvensgränser
Användning av prioritetsbearbetning hanteras på samma sätt som vanlig API-trafik vad gäller frekvensgränser.
Tillförlitlighet
Kontakta din AD om du har frågor eller funderingar.
SLA:er för prioritetsbearbetning hanteras på samma sätt som SLA:er för Scale Tier, dvs. tjänstekrediter utfärdas om vi inte lyckas uppfylla SLA:erna för kunder med företagsavtal under en viss tidsperiod.
Policyer
Ja