Przetwarzanie priorytetowe dla klientów API
Przetwarzanie priorytetowe zapewnia niezawodność, szybkie działanie oraz elastyczność płatności za użycie.
Korzyści płynące z przetwarzania priorytetowego:
- Przewidywalnie niskie opóźnienia: Przetwarzanie priorytetowe generuje tokeny szybciej i z bardziej stabilną prędkością niż przetwarzanie standardowe, nawet w okresach szczytowego zapotrzebowania.
- Wygodna elastyczność: Podobnie jak przetwarzanie standardowe przetwarzanie priorytetowe można uzyskać na elastycznych zasadach płatności za wykorzystanie, bez konieczności wcześniejszej aprowizacji.
| Cena za 1 mln tokenów wejściowych | Cena za 1 mln tokenów wejściowych (buforowane) | Cena za 1 mln tokenów wyjściowych | Umowa SLA dotycząca czasu dostępności3 | Umowa SLA dotycząca opóźnienia3 | |
|---|---|---|---|---|---|
GPT-5.5 z wykluczeniem długiego kontekstu1 | 12,50 USD | 1,250 USD | 75,00 USD | 99,9% | 99% > 50 tokenów na sekundę2 |
GPT-5.4 mini z wykluczeniem długiego kontekstu1 | 1,50 USD | 0,150 USD | 9,00 USD | 99,9% | 99% > 100 tokenów na sekundę2 |
GPT-5.4 z wykluczeniem długiego kontekstu1 | 5,00 USD | 0,500 USD | 30,00 USD | 99,9% | 99% > 50 tokenów na sekundę2 |
GPT-5.2 z wykluczeniem długiego kontekstu1 | 3,50 USD | 0,350 USD | 28,00 USD | 99,9% | 99% > 50 tokenów na sekundę2 |
GPT-5.1 z wykluczeniem długiego kontekstu1 | 2,50 USD | 0,250 USD | 20,00 USD | 99,9% | 99% > 50 tokenów na sekundę2 |
GPT-5 z wykluczeniem długiego kontekstu1 | 2,50 USD | 0,250 USD | 20,00 USD | 99,9% | 99% > 50 tokenów na sekundę2 |
GPT-5 mini z wykluczeniem długiego kontekstu1 | 0,45 USD | 0,045 USD | 3,60 USD | 99,9% | 99% > 80 tokenów na sekundę2 |
GPT-5.1 codex z wykluczeniem długiego kontekstu1 | 2,50 USD | 0,250 USD | 20,00 USD | 99,9% | 99% > 50 tokenów na sekundę2 |
GPT-5 codex z wykluczeniem długiego kontekstu1 | 2,50 USD | 0,250 USD | 20,00 USD | 99,9% | 99% > 50 tokenów na sekundę2 |
GPT-4.1 z wykluczeniem długiego kontekstu1 | 3,50 USD | 0,875 USD | 14,00 USD | 99,9% | 99% > 80 tokenów na sekundę2 |
GPT-4.1 mini z wykluczeniem długiego kontekstu1 | 0,70 USD | 0,175 USD | 2,80 USD | 99,9% | 99% > 90 tokenów na sekundę2 |
GPT-4.1 nano z wykluczeniem długiego kontekstu1 | 0,20 USD | 0,050 USD | 0,80 USD | 99,9% | 99% > 100 tokenów na sekundę2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | 4,25 USD | 2,125 USD | 17,00 USD | 99,9% | 99% > 80 tokenów na sekundę2 |
gpt-4o-2024-05-13 | 8,75 USD | — | 26,25 USD | 99,9% | 99% > 80 tokenów na sekundę2 |
GPT-4o mini | 0,25 USD | 0,125 USD | 1,00 USD | 99,9% | 99% > 90 tokenów na sekundę2 |
o3 | 3,50 USD | 0,875 USD | 14,00 USD | 99,9% | 99% > 80 tokenów na sekundę2 |
o4-mini | 2,00 USD | 0,500 USD | 8,00 USD | 99,9% | 99% > 90 tokenów na sekundę2 |
1Żądania szacowane na >128 tys. tokenów poleceń
2Obliczone jako opóźnienie żądania p50 w odstępach 5-minutowych. W przypadku klientów z istniejącymi umowami korporacyjnymi i umowami SLA dotyczącymi opóźnienia obliczonego jako opóźnienie żądania p50 na minutę wcześniejsze umowy SLA także obowiązują.
3Dotyczy to tylko klientów korzystających z planu Enterprise
Jak ten model działa?
Klienci mogą kierować ruch do przetwarzania priorytetowego dla poszczególnych żądań przy użyciu istniejącego parametru service_tier, opcja service_tier = "priority".
Tokeny obsługiwane przez przetwarzanie priorytetowe będą rozliczane według liczby tokenów, a ich cena będzie wyższa niż w przypadku stawek za przetwarzanie standardowe.
Oprócz konfiguracji na poziomie żądania, możesz również ustawić projekt domyślnie z opcją Priorytet w Ustawieniach projektu → Domyślny poziom usługi: Priorytet. Możesz nadal nadpisywać na żądanie.
Ograniczenia
- Limity zapytań przetwarzania priorytetowego są współdzielone z innymi poziomami usług.
- W rzadkich przypadkach gwałtowny wzrost liczby tokenów na minutę przetwarzania priorytetowego może spowodować napotkanie limitów narastania liczby zapytań. W przypadku przekroczenia limitu narastania liczby zapytań dodatkowy ruch może zostać przekierowany do przetwarzania standardowego.