Przetwarzanie priorytetowe dla klientów API

Przetwarzanie priorytetowe zapewnia niezawodność, szybkie działanie oraz elastyczność płatności za użycie.

Korzyści płynące z przetwarzania priorytetowego:

Przewidywalnie niskie opóźnienia: Przetwarzanie priorytetowe generuje tokeny szybciej i z bardziej stabilną prędkością niż przetwarzanie standardowe, nawet w okresach szczytowego zapotrzebowania.
Wygodna elastyczność: Podobnie jak przetwarzanie standardowe przetwarzanie priorytetowe można uzyskać na elastycznych zasadach płatności za wykorzystanie, bez konieczności wcześniejszej aprowizacji.

	Cena za 1 mln tokenów wejściowych	Cena za 1 mln tokenów wejściowych (buforowane)	Cena za 1 mln tokenów wyjściowych	Umowa SLA dotycząca czasu dostępności³	Umowa SLA dotycząca opóźnienia³
GPT-5.5 z wykluczeniem długiego kontekstu¹	12,50 USD	1,250 USD	75,00 USD	99,9%	99% > 50 tokenów na sekundę²
GPT-5.4 mini z wykluczeniem długiego kontekstu¹	1,50 USD	0,150 USD	9,00 USD	99,9%	99% > 100 tokenów na sekundę²
GPT-5.4 z wykluczeniem długiego kontekstu¹	5,00 USD	0,500 USD	30,00 USD	99,9%	99% > 50 tokenów na sekundę²
GPT-5.2 z wykluczeniem długiego kontekstu¹	3,50 USD	0,350 USD	28,00 USD	99,9%	99% > 50 tokenów na sekundę²
GPT-5.1 z wykluczeniem długiego kontekstu¹	2,50 USD	0,250 USD	20,00 USD	99,9%	99% > 50 tokenów na sekundę²
GPT-5 z wykluczeniem długiego kontekstu¹	2,50 USD	0,250 USD	20,00 USD	99,9%	99% > 50 tokenów na sekundę²
GPT-5 mini z wykluczeniem długiego kontekstu¹	0,45 USD	0,045 USD	3,60 USD	99,9%	99% > 80 tokenów na sekundę²
GPT-5.1 codex z wykluczeniem długiego kontekstu¹	2,50 USD	0,250 USD	20,00 USD	99,9%	99% > 50 tokenów na sekundę²
GPT-5 codex z wykluczeniem długiego kontekstu¹	2,50 USD	0,250 USD	20,00 USD	99,9%	99% > 50 tokenów na sekundę²
GPT-4.1 z wykluczeniem długiego kontekstu¹	3,50 USD	0,875 USD	14,00 USD	99,9%	99% > 80 tokenów na sekundę²
GPT-4.1 mini z wykluczeniem długiego kontekstu¹	0,70 USD	0,175 USD	2,80 USD	99,9%	99% > 90 tokenów na sekundę²
GPT-4.1 nano z wykluczeniem długiego kontekstu¹	0,20 USD	0,050 USD	0,80 USD	99,9%	99% > 100 tokenów na sekundę²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	4,25 USD	2,125 USD	17,00 USD	99,9%	99% > 80 tokenów na sekundę²
gpt-4o-2024-05-13	8,75 USD	—	26,25 USD	99,9%	99% > 80 tokenów na sekundę²
GPT-4o mini	0,25 USD	0,125 USD	1,00 USD	99,9%	99% > 90 tokenów na sekundę²
o3	3,50 USD	0,875 USD	14,00 USD	99,9%	99% > 80 tokenów na sekundę²
o4-mini	2,00 USD	0,500 USD	8,00 USD	99,9%	99% > 90 tokenów na sekundę²

1Żądania szacowane na >128 tys. tokenów poleceń

2Obliczone jako opóźnienie żądania p50 w odstępach 5-minutowych. W przypadku klientów z istniejącymi umowami korporacyjnymi i umowami SLA dotyczącymi opóźnienia obliczonego jako opóźnienie żądania p50 na minutę wcześniejsze umowy SLA także obowiązują.

3Dotyczy to tylko klientów korzystających z planu Enterprise

Jak ten model działa?

Klienci mogą kierować ruch do przetwarzania priorytetowego dla poszczególnych żądań przy użyciu istniejącego parametru service_tier, opcja service_tier = "priority".

Tokeny obsługiwane przez przetwarzanie priorytetowe będą rozliczane według liczby tokenów, a ich cena będzie wyższa niż w przypadku stawek za przetwarzanie standardowe.

Oprócz konfiguracji na poziomie żądania, możesz również ustawić projekt domyślnie z opcją Priorytet w Ustawieniach projektu → Domyślny poziom usługi: Priorytet. Możesz nadal nadpisywać na żądanie.

Ograniczenia

Limity zapytań przetwarzania priorytetowego są współdzielone z innymi poziomami usług.
W rzadkich przypadkach gwałtowny wzrost liczby tokenów na minutę przetwarzania priorytetowego może spowodować napotkanie limitów narastania liczby zapytań. W przypadku przekroczenia limitu narastania liczby zapytań dodatkowy ruch może zostać przekierowany do przetwarzania standardowego.

Przetwarzanie priorytetowe dla klientów API

Jak ten model działa?

Ograniczenia

Cennik

Modele

Limity

Niezawodność

Polityki