Przejdź do treści głównej
OpenAI

Przetwarzanie priorytetowe dla klientów API

Przetwarzanie priorytetowe zapewnia niezawodność, szybkie działanie oraz elastyczność płatności za użycie.

Korzyści płynące z przetwarzania priorytetowego:

  • Przewidywalnie niskie opóźnienia: Przetwarzanie priorytetowe generuje tokeny szybciej i z bardziej stabilną prędkością niż przetwarzanie standardowe, nawet w okresach szczytowego zapotrzebowania.
  • Wygodna elastyczność: Podobnie jak przetwarzanie standardowe przetwarzanie priorytetowe można uzyskać na elastycznych zasadach płatności za wykorzystanie, bez konieczności wcześniejszej aprowizacji.
Cena za 1 mln tokenów wejściowychCena za 1 mln tokenów wejściowych (buforowane)Cena za 1 mln tokenów wyjściowychUmowa SLA dotycząca czasu dostępności3Umowa SLA dotycząca opóźnienia3
GPT-5.5
z wykluczeniem długiego kontekstu1
12,50 USD1,250 USD75,00 USD99,9%99% > 50 tokenów na sekundę2
GPT-5.4 mini
z wykluczeniem długiego kontekstu1
1,50 USD0,150 USD9,00 USD99,9%99% > 100 tokenów na sekundę2
GPT-5.4
z wykluczeniem długiego kontekstu1
5,00 USD0,500 USD30,00 USD99,9%99% > 50 tokenów na sekundę2
GPT-5.2
z wykluczeniem długiego kontekstu1
3,50 USD0,350 USD28,00 USD99,9%99% > 50 tokenów na sekundę2
GPT-5.1
z wykluczeniem długiego kontekstu1
2,50 USD0,250 USD20,00 USD99,9%99% > 50 tokenów na sekundę2
GPT-5
z wykluczeniem długiego kontekstu1
2,50 USD0,250 USD20,00 USD99,9%99% > 50 tokenów na sekundę2
GPT-5 mini
z wykluczeniem długiego kontekstu1
0,45 USD0,045 USD3,60 USD99,9%99% > 80 tokenów na sekundę2
GPT-5.1 codex
z wykluczeniem długiego kontekstu1
2,50 USD0,250 USD20,00 USD99,9%99% > 50 tokenów na sekundę2
GPT-5 codex
z wykluczeniem długiego kontekstu1
2,50 USD0,250 USD20,00 USD99,9%99% > 50 tokenów na sekundę2
GPT-4.1
z wykluczeniem długiego kontekstu1
3,50 USD0,875 USD14,00 USD99,9%99% > 80 tokenów na sekundę2
GPT-4.1 mini
z wykluczeniem długiego kontekstu1
0,70 USD0,175 USD2,80 USD99,9%99% > 90 tokenów na sekundę2
GPT-4.1 nano
z wykluczeniem długiego kontekstu1
0,20 USD0,050 USD0,80 USD99,9%99% > 100 tokenów na sekundę2
GPT-4o
gpt-4o-2024-11-20
gpt-4o-2024-08-06
4,25 USD2,125 USD17,00 USD99,9%99% > 80 tokenów na sekundę2
gpt-4o-2024-05-13
8,75 USD26,25 USD99,9%99% > 80 tokenów na sekundę2
GPT-4o mini
0,25 USD0,125 USD1,00 USD99,9%99% > 90 tokenów na sekundę2
o3
3,50 USD0,875 USD14,00 USD99,9%99% > 80 tokenów na sekundę2
o4-mini
2,00 USD0,500 USD8,00 USD99,9%99% > 90 tokenów na sekundę2
1Żądania szacowane na >128 tys. tokenów poleceń
2Obliczone jako opóźnienie żądania p50 w odstępach 5-minutowych. W przypadku klientów z istniejącymi umowami korporacyjnymi i umowami SLA dotyczącymi opóźnienia obliczonego jako opóźnienie żądania p50 na minutę wcześniejsze umowy SLA także obowiązują.
3Dotyczy to tylko klientów korzystających z planu Enterprise

Jak ten model działa?

Klienci mogą kierować ruch do przetwarzania priorytetowego dla poszczególnych żądań przy użyciu istniejącego parametru service_tier, opcja service_tier = "priority".

Tokeny obsługiwane przez przetwarzanie priorytetowe będą rozliczane według liczby tokenów, a ich cena będzie wyższa niż w przypadku stawek za przetwarzanie standardowe. 

Oprócz konfiguracji na poziomie żądania, możesz również ustawić projekt domyślnie z opcją Priorytet w Ustawieniach projektu → Domyślny poziom usługi: Priorytet. Możesz nadal nadpisywać na żądanie.

Ograniczenia

  • Limity zapytań przetwarzania priorytetowego są współdzielone z innymi poziomami usług. 
  • W rzadkich przypadkach gwałtowny wzrost liczby tokenów na minutę przetwarzania priorytetowego może spowodować napotkanie limitów narastania liczby zapytań. W przypadku przekroczenia limitu narastania liczby zapytań dodatkowy ruch może zostać przekierowany do przetwarzania standardowego.

Cennik

Modele

Limity

Niezawodność

Polityki