Prioritetsbearbetning för API-kunder
Prioritetsbearbetning erbjuder tillförlitlig höghastighetsprestanda med flexibiliteten att betala per användning.
Med prioritetsbearbetning får du tillgång till följande:
- Förutsägbar låg latens: Prioriterad bearbetning genererar tokens snabbare och med en mer jämn hastighet än standardbearbetningstjänsten, även under perioder med hög efterfrågan.
- Användarvänlig flexibilitet: Precis som standardbearbetning kan prioritetbearbetning användas på en flexibel, pay-as-you-go-basis istället för att kräva förskottsbetalning.
| Pris per 1 miljon indatatokens | Pris per 1 miljon indatatokens (cachade) | Pris per 1 miljon utdatatokens | Drifttid SLA3 | Latens SLA3 | |
|---|---|---|---|---|---|
GPT-5.2 exkluderar lång kontext1 | 3,50 US$ | 0,350 US$ | 28,00 US$ | 99,9 % | 99 % > 50 tokens per sekund2 |
GPT-5.1 exkluderar lång kontext1 | 2,50 US$ | 0,250 US$ | 20,00 US$ | 99,9 % | 99 % > 50 tokens per sekund2 |
GPT-5 exkluderar lång kontext1 | 2,50 US$ | 0,250 US$ | 20,00 US$ | 99,9 % | 99 % > 50 tokens per sekund2 |
GPT-5 mini exkluderar lång kontext1 | 0,45 US$ | 0,045 US$ | 3,60 US$ | 99,9 % | 99 % > 80 tokens per sekund2 |
GPT-5.1 codex exkluderar lång kontext1 | 2,50 US$ | 0,250 US$ | 20,00 US$ | 99,9 % | 99 % > 50 tokens per sekund2 |
GPT-5 codex exkluderar lång kontext1 | 2,50 US$ | 0,250 US$ | 20,00 US$ | 99,9 % | 99 % > 50 tokens per sekund2 |
GPT-4.1 exkluderar lång kontext1 | 3,50 US$ | 0,875 US$ | 14,00 US$ | 99,9 % | 99 % > 80 tokens per sekund2 |
GPT-4.1 mini exkluderar lång kontext1 | 0,70 US$ | 0,175 US$ | 2,80 US$ | 99,9 % | 99 % > 90 tokens per sekund2 |
GPT-4.1 nano exkluderar lång kontext1 | 0,20 US$ | 0,050 US$ | 0,80 US$ | 99,9 % | 99 % > 100 tokens per sekund2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | 4,25 US$ | 2,125 US$ | 17,00 US$ | 99,9 % | 99 % > 80 tokens per sekund2 |
gpt-4o-2024-05-13 | 8,75 US$ | — | 26,25 US$ | 99,9 % | 99 % > 80 tokens per sekund2 |
GPT-4o mini | 0,25 US$ | 0,125 US$ | 1,00 US$ | 99,9 % | 99 % > 90 tokens per sekund2 |
o3 | 3,50 US$ | 0,875 US$ | 14,00 US$ | 99,9 % | 99 % > 80 tokens per sekund2 |
o4-mini | 2,00 US$ | 0,500 US$ | 8,00 US$ | 99,9 % | 99 % > 90 tokens per sekund2 |
Så här fungerar det
Kunder kan omdirigera trafik till prioritetsbearbetning, en begäran i taget, med hjälp av den befintliga service_tier-parametern. Bara välj service_tier = “priority”.
Tokens som använder prioritetsbearbetning faktureras per token, med en högre prispunkt än standardbearbetning.
Förutom att konfigureras på begäran kan du också ange ett projekt som standard till Prioritet i Projektinställningar → Standardtjänstnivå: Prioritet. Du kan fortfarande åsidosätta för varje begäran.
Begränsningar
- Prioritetsbearbetningsgränser delas med andra tjänstenivåer.
- I sällsynta fall kan en snabb ökning av tokens för prioritetsbearbetning per minut leda till att gränser för ökningsfrekvens överskrids. Om denna gräns överskrids kan ytterligare trafik komma att skickas till standardbearbetning istället.
Priser
Scale Tier förblir avskilt från prioritetsbearbetning.
Begäranden som skickas till prioritetsbearbetning faktureras separat och räknas inte in i de Scale Tier TPM-paket som du har köpt.
Modeller
Inte som det ser ut nu. Framöver kommer vi överväga att erbjuda prioritetsbearbetning även med andra produkter, utöver våra senaste modeller.
Frekvensgränser
Användning av prioritetsbearbetning hanteras på samma sätt som vanlig API-trafik vad gäller frekvensgränser.
Tillförlitlighet
Företagskunder ska kontakta sin AD vid frågor eller funderingar.
SLA:er för prioritetsbearbetning hanteras på samma sätt som SLA:er för Scale Tier, dvs. tjänstekrediter utfärdas om vi inte lyckas uppfylla SLA:erna för kunder med företagsavtal under en viss tidsperiod.
Policyer
Ja