Prioritetsbehandling for API-kunder

Dette tilbud er tilgængeligt for Enterprise-kunder. Kontakt vores salgsteam⁠⁠ for at få mere at vide.

Prioritetsbehandling tilbyder pålidelig ydeevne med høj hastighed og fleksibilitet til at betale efter alt efter forbrug.

Ved at vælge prioritetsbehandling kan du låse op for:

Forudsigelig, lav latens: Prioritetsbehandling genererer tokens hurtigere og ved en mere stabil hastighed sammenlignet med standardbehandlingstjenesten, selv i perioder med stor efterspørgsel.
Brugervenlig fleksibilitet: Som med standardbehandling kan prioritetsbehandling benyttes på et fleksibelt basis, hvor der betales alt efter forbrug, i stedet for at kræve betaling på forhånd.

	Pris pr. 1 mio. input-tokens	Pris pr. 1 mio. input-tokens (cachelagret)	Pris pr. 1 mio. output-tokens	Serviceniveauaftale for oppetid³	Serviceniveauaftale for latenstid³
GPT-5.1 udelukker lang kontekst¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tokens pr. sekund²
GPT-5 udelukker lang kontekst¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tokens pr. sekund²
GPT-5 mini udelukker lang kontekst¹	0,45 US$	0,045 US$	3,60 US$	99,9 %	99 % > 80 tokens pr. sekund²
GPT-5.1 codex udelukker lang kontekst¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tokens pr. sekund²
GPT-5 codex udelukker lang kontekst¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tokens pr. sekund²
GPT-4.1 udelukker lang kontekst¹	3,50 US$	0,875 US$	14,00 US$	99,9 %	99 % > 80 tokens pr. sekund²
GPT-4.1 mini udelukker lang kontekst¹	0,70 US$	0,175 US$	2,80 US$	99,9 %	99 % > 90 tokens pr. sekund²
GPT-4.1 nano udelukker lang kontekst¹	0,20 US$	0,050 US$	0,80 US$	99,9 %	99 % > 100 tokens pr. sekund²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	4,25 US$	2,125 US$	17,00 US$	99,9 %	99 % > 80 tokens pr. sekund²
gpt-4o-2024-05-13	8,75 US$	—	26,25 US$	99,9 %	99 % > 80 tokens pr. sekund²
GPT-4o mini	0,25 US$	0,125 US$	1,00 US$	99,9 %	99 % > 90 tokens pr. sekund²
o3	3,50 US$	0,875 US$	14,00 US$	99,9 %	99 % > 80 tokens pr. sekund²
o4-mini	2,00 US$	0,500 US$	8,00 US$	99,9 %	99 % > 90 tokens pr. sekund²

1Anmodninger anslået til >128.000 forespørgsels-tokens

2Beregnet som p50 anmodningslatenstid pr. 5 minutter. For kunder med eksisterende virksomhedsaftaler, der har serviceniveauaftaler for latenstid beregnet som p50 anmodningslatens på minutbasis, gælder de tidligere serviceniveauaftaler også stadig.

3Dette gælder kun Enterprise-kunder

Sådan fungerer det

Kunder kan føre trafik til prioritetsbehandling på basis af efterspørgsel ved brug af den eksisterende service_tier-parameter, med valgmuligheden service_tier = “priority”.

Tokens, der leveres af prioritetsbehandling, vil blive faktureret på et pr. token-basis og prissættes til en højere pris end prisen for standardbehandling.

Udover at være konfigureret til anmodningsniveau planlægger vi også at tilføje muligheden for at tilvælge på projektniveau i den nærmeste fremtid.

Begrænsninger

Brugsgrænserne for prioritetsbehandling deles med andre serviceniveauer.
I sjældne tilfælde kan en hurtig stigning i antal tokens pr. minut for prioritetsbehandling føre til, at du når brugshastighedsgrænserne. Hvis du overskrider denne brugshastighedsgrænse, kan yderligere trafik blive sendt til standardbehandling i stedet.

Priser

Kapacitetstrinnet forbliver adskilt fra prioritetsbehandling.

Anmodninger, der sendes til prioritetsbehandling, vil blive faktureret separat og medregnes ikke i dine TPM-pakker for kapacitetstrin.

Modeller

Nej, ikke på nuværende tidspunkt. I fremtiden vil vi evaluere, hvorvidt vi skal tilbyde prioritetsbehandling på yderligere produkter ud over vores seneste modeller.

Brugsgrænser

Forbruget i prioritetsbehandling behandles på samme måde som standard-API-trafikken for brugshastighedsgrænser.

Prioritetsbehandling har brugshastighedsgrænser for at sikre konsekvent høj ydeevne for alle kunder og stadig kunne tilbyde fleksible priser alt efter forbrug. Hvis (a) effektiviteten af prioritetsbehandling forringes, OG (b) en kundes trafik øges for hurtigt, så kan visse prioritetsanmodninger blive nedgraderet til standardbehandling i stedet.

Den aktuelle brugshastighedsgrænse for prioritetsbehandling er defineret som behandling ved mindst 100.000 TPM og øger trafikken med >50 % tokens pr. minut inden for 15 minutter.

Anmodninger behandlet på standardserviceniveau vil blive faktureret til standardpriser og er ikke berettiget til målsætningen for serviceniveau for prioritetsbehandling.

Anmodninger, der behandles på standardserviceniveau, vil inkludere service_tier=”Defualt” i svaret.

Anbefalede fremgangsmåder til at blive inden for din brugsgrænse

Øg gradvist trafikken, når der skiftes modeller. Hvis din applikation f.eks. er ved at overgå fra et tidligere snapshot til et nyt, skal du bruge et funktionsflag til at overføre trafikken i løbet af nogle timer i stedet for alt sammen på én gang.
Undgå at køre store databehandlingsjobs eller asynkrone jobs på prioritetsbehandling. Disse jobs kan øge trafikken hurtigt, og behøver ofte ikke den forbedrede ydeevne, der er ved prioritetsbehandling.
Hvis du ofte oplever problemer med brugshastighedsgrænser, kan du overveje at købe kapacitetstrin i stedet eller som et supplement.

Pålidelighed

Kontakt din AD med eventuelle spørgsmål eller eventuel tvivl, du måtte have.

Serviceniveauaftaler (SLA'er) for prioritetsbehandling vil blive behandlet på samme måde som SLA'er for kapacitetstrin. Der tilbydes servicekreditter, hvis vi ikke kan opfylde disse SLA'er for kunder med virksomhedsaftaler i en given periode.

Prioritetsbehandling for API-kunder

Sådan fungerer det

Begrænsninger

Priser

Hvordan interagerer dette med kapacitetstrinnet?

Kan jeg automatisk sende min overskydende trafik fra kapacitetstrin til prioritetsbehandling?

Er min årlige aftale bundet til en specifik behandlingstilstand?

Får jeg stadig en rabat på cached input-tokens?

Hvordan kan jeg se mit forbrug og udgifter til prioritetsbehandling?

Modeller

Er prioritetsbehandling tilgængelig for lang kontekst, finjusterede modeller, indlejringer osv.?

Hvordan fungerer andre modaliteter med prioritetsbehandling?

Vil fremtidige modeller være understøttet?

Brugsgrænser

Hvad er brugsgrænserne?

Hvad er brugshastighedsgrænserne?

Deles brugshastighedsgrænser på tværs af mine projekter eller organisationer?

Pålidelighed

Hvad sker det, hvis den ikke opfylder latensmålet?

Politikker

Er prioritetsbehandling kompatibel med dataopbevaring?

Er prioritetsbehandling kompatibel med ZDR og BAA?