Prioritert behandling for API-kunder

Prioritert behandling gir pålitelig, høyhastighetsytelse med fleksibiliteten til å betale etter hvert som du bruker.

Ved å velge prioritert behandling, kan du låse opp:

Forutsigbart lav forsinkelse: Prioritert behandling genererer tokens raskere og med en mer konsekvent hastighet enn Standard behandlingstjeneste, selv under høy etterspørsel.
Enkel å bruke fleksibilitet: I likhet med standard behandling kan prioritert behandling benyttes på en fleksibel, betal-etter-bruk basis, i stedet for å kreve klargjøring.

	Pris per 1 mill. inndatatokener	Pris per 1 mill. inndatatokener (bufret)	Pris per 1 mill. utdatatokener	Tjenesteavtale – oppetid³	Tjenesteavtale – forsinkelse³
GPT-5.2 uten long-context¹	3,50 USD	0,350 USD	28,00 USD	99,9 %	99 % > 50 tokener per sekund²
GPT-5.1 uten long-context¹	2,50 USD	0,250 USD	20,00 USD	99,9 %	99 % > 50 tokener per sekund²
GPT-5 uten long-context¹	2,50 USD	0,250 USD	20,00 USD	99,9 %	99 % > 50 tokener per sekund²
GPT-5 mini uten long-context¹	0,45 USD	0,045 USD	3,60 USD	99,9 %	99 % > 80 tokener per sekund²
GPT-5.1 codex uten long-context¹	2,50 USD	0,250 USD	20,00 USD	99,9 %	99 % > 50 tokener per sekund²
GPT-5 codex uten long-context¹	2,50 USD	0,250 USD	20,00 USD	99,9 %	99 % > 50 tokener per sekund²
GPT-4.1 uten long-context¹	3,50 USD	0,875 USD	14,00 USD	99,9 %	99 % > 80 tokener per sekund²
GPT-4.1 mini uten long-context¹	0,70 USD	0,175 USD	2,80 USD	99,9 %	99 % > 90 tokener per sekund²
GPT-4.1 nano uten long-context¹	0,20 USD	0,050 USD	0,80 USD	99,9 %	99 % > 100 tokener per sekund²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	4,25 USD	2,125 USD	17,00 USD	99,9 %	99 % > 80 tokener per sekund²
gpt-4o-2024-05-13	8,75 USD	—	26,25 USD	99,9 %	99 % > 80 tokener per sekund²
GPT-4o mini	0,25 USD	0,125 USD	1,00 USD	99,9 %	99 % > 90 tokener per sekund²
o3	3,50 USD	0,875 USD	14,00 USD	99,9 %	99 % > 80 tokener per sekund²
o4-mini	2,00 USD	0,500 USD	8,00 USD	99,9 %	99 % > 90 tokener per sekund²

1Forespørsler estimert ved >128 000 meldingstokener

2Beregnet som p50-meldingsforsinkelse på en per 5 minutter-basis. For kunder med eksisterende bedriftsavtaler som har tjenesteavtaler om forsinkelse beregnet som p50-meldingsforsinkelse på en per minutt-basis, gjelder også de tidligere tjenesteavtalene.

3Dette gjelder kun Enterprise-kunder

Slik fungerer det

Kunder kan dirigere trafikk til prioritert behandling per forespørsel ved å bruke den eksisterende parameteren service_tier, med alternativet service_tier = “priority”.

Token som behandles med prioritert behandling, faktureres per token til en pris som er høyere enn standard behandlingssatser.

I tillegg til å bli konfigurert på forespørselsnivå, kan du også sette et prosjekt til Prioritet som standard i prosjektinnstillinger → standard tjenestenivå: Prioritet. Du kan fortsatt overstyre per forespørsel.

Begrensninger

Prioritetsbehandlingshastighetsgrenser deles med andre tjenestenivåer.
I sjeldne tilfeller kan raske økninger i antall Tokens per minutt for prioritert behandling føre til at ramp rate-grenser nås. Hvis du overskrider ramp rate-grensen, kan ekstra trafikk bli sendt til standardbehandling i stedet.

Priser

Skalanivå vil forbli adskilt fra prioritert behandling.

Forespørsler sendt til prioritert behandling vil bli fakturert separat og vil ikke bli trukket fra de kjøpte skalanivå TPM-pakkene dine.

Modeller

Ikke akkurat nå. Vi vil i fremtiden vurdere om vi skal tilby prioritert behandling på flere produkter utover de nyeste modellene våre.

Hastighetsgrenser

Forbruk av prioritert behandling behandles på samme måte som standard API-trafikk når det gjelder hastighetsgrenser.

Prioritert behandling har ramp rate-begrensninger for å sikre konsekvent høy ytelse for alle kunder, samtidig som det fortsatt tilbys fleksibel, etterspørselsbasert pris. Hvis (a) ytelsen for prioritert behandling er redusert OG (b) en kundes trafikk øker for raskt, kan noen prioriterte forespørsler bli nedgradert til standard behandling i stedet.

Den nåværende ramp rate-grensen for prioritert behandling er definert som behandling av minst 1M TPM, og en økning i trafikk med >50 % tokener per minutt på under 15 minutter.

Forespørsler behandlet av standard tjenestenivå vil bli fakturert til standardpriser og er ikke kvalifisert for prioriterte behandlingsmål for tjenestenivå.

Forespørsler behandlet av standard-tjenestenivået vil inkludere service_tier="Default" i svaret.

Beste praksis for å holde seg innenfor din ramp rate-grense

Øk trafikken gradvis når du endrer modeller. For eksempel, hvis applikasjonen din går fra et tidligere snapshot til et nytt, bruk et funksjonsflagg for å overføre trafikken over noen timer i stedet for alt på en gang.
Unngå å kjøre store databehandlings- eller asynkrone jobber på prioritert behandling. Disse jobbene kan øke trafikken veldig raskt, og trenger ofte ikke den forbedrede ytelsen fra prioritert behandling.
Hvis du ofte møter begrensninger på rampetakt, bør du vurdere å kjøpe skalanivåkapasitet i stedet for eller i tillegg.

Pålitelighet

For Enterprise-kunder, vennligst ta kontakt med din AD for eventuelle spørsmål eller bekymringer.

Prioritetsbehandlings-SLA-er vil bli behandlet på samme måte som skalanivå-SLA-er; tjenestekreditter vil bli tilbudt dersom vi ikke oppfyller disse SLA-ene for kunder med bedriftsavtaler i løpet av et gitt tidsvindu.

Prioritert behandling for API-kunder

Slik fungerer det

Begrensninger

Priser

(For Enterprise-kunder) Hvordan samhandler dette med skalanivå?

(For Enterprise-kunder) Kan jeg automatisk sende overskuddstrafikken fra skalanivået til prioritert behandling?

(For Enterprise-kunder) Er den årlige forpliktelsen min knyttet til en spesifikk behandlingsmodus?

Får jeg fortsatt rabatt på bufrede inndatatokener?

Hvordan kan jeg se bruken og kostnadene for prioritert behandling?

Modeller

Er prioritert behandling tilgjengelig for lange kontekster, finjusterte modeller, innebygde representasjoner osv.?

Hvordan fungerer andre modaliteter med prioritert behandling?

Vil fremtidige modeller bli støttet?

Hastighetsgrenser

Hva er hastighetsbegrensningene?

Hva er ramp rate-grensene?

Er ramp rate-grenser delt på tvers av prosjektene eller organisasjonene mine?

Pålitelighet

(For Enterprise-kunder) Hva skjer hvis forsinkelsesmålet ikke oppfylles?

Retningslinjer

Er prioritert behandling kompatibel med dataopphold?

Er prioritert behandling kompatibelt med null oppbevaring av data (ZDR) og forretningspartneravtalen (BAA)?