Elaborazione Prioritaria per i clienti API
L'elaborazione Prioritaria offre prestazioni affidabili e ad alta velocità con la flessibilità di pagare a consumo.
Scegliendo l'elaborazione Prioritaria, puoi sbloccare:
- Latenza prevedibilmente bassa: il servizio di elaborazione Prioritaria genera token più rapidamente e con maggiore costanza rispetto al servizio Standard, anche durante i picchi di domanda.
- Flessibilità facile da usare: come l’elaborazione Standard, anche l’elaborazione Prioritaria può essere utilizzata in modo flessibile e a consumo, senza richiedere provisioning anticipato.
| Prezzo per 1M token di input | Prezzo per 1M token di input (memorizzati nella cache) | Prezzo per 1M token di output | SLA di uptime3 | SLA di latenza3 | |
|---|---|---|---|---|---|
GPT-5.2 esclude il contesto lungo1 | 3,50 USD | 0,350 USD | 28,00 USD | 99,9% | 99% > 50 token al secondo2 |
GPT-5.1 esclude il contesto lungo1 | 2,50 USD | 0,250 USD | 20,00 USD | 99,9% | 99% > 50 token al secondo2 |
GPT-5 esclude il contesto lungo1 | 2,50 USD | 0,250 USD | 20,00 USD | 99,9% | 99% > 50 token al secondo2 |
GPT-5 mini esclude il contesto lungo1 | 0,45 USD | 0,045 USD | 3,60 USD | 99,9% | 99% > 80 token al secondo2 |
GPT-5.1 codex esclude il contesto lungo1 | 2,50 USD | 0,250 USD | 20,00 USD | 99,9% | 99% > 50 token al secondo2 |
GPT-5 codex esclude il contesto lungo1 | 2,50 USD | 0,250 USD | 20,00 USD | 99,9% | 99% > 50 token al secondo2 |
GPT-4.1 esclude il contesto lungo1 | 3,50 USD | 0,875 USD | 14,00 USD | 99,9% | 99% > 80 token al secondo2 |
GPT-4.1 mini esclude il contesto lungo1 | 0,70 USD | 0,175 USD | 2,80 USD | 99,9% | 99% > 90 token al secondo2 |
GPT-4.1 nano esclude il contesto lungo1 | 0,20 USD | 0,050 USD | 0,80 USD | 99,9% | 99% > 100 token al secondo2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | 4,25 USD | 2,125 USD | 17,00 USD | 99,9% | 99% > 80 token al secondo2 |
gpt-4o-2024-05-13 | 8,75 USD | — | 26,25 USD | 99,9% | 99% > 80 token al secondo2 |
GPT-4o mini | 0,25 USD | 0,125 USD | 1,00 USD | 99,9% | 99% > 90 token al secondo2 |
o3 | 3,50 USD | 0,875 USD | 14,00 USD | 99,9% | 99% > 80 token al secondo2 |
o4-mini | 2,00 USD | 0,500 USD | 8,00 USD | 99,9% | 99% > 90 token al secondo2 |
Come funziona
I clienti possono indirizzare il traffico verso l’elaborazione Prioritaria per singola richiesta utilizzando il parametro esistente service_tier, con l’opzione service_tier = “priority”.
I token gestiti dall’elaborazione Prioritaria verranno fatturati per token, con un prezzo premium rispetto alle tariffe dell’elaborazione Standard.
Oltre a essere configurato a livello di richiesta, puoi anche impostare un progetto su Priorità nelle impostazioni del progetto → Livello di servizio predefinito: Priorità. Puoi comunque sovrascrivere per singola richiesta.
Limiti
- I limiti di velocità di elaborazione Prioritaria sono condivisi con altri livelli di servizio.
- In rari casi, un rapido aumento dei token per minuto di elaborazione Prioritaria può portare a superare i limiti di velocità di rampa. Se superi il limite della velocità di rampa, il traffico aggiuntivo potrebbe essere inviato all'elaborazione Standard.
Tariffe
Il livello Scale rimarrà separato dall'elaborazione Prioritaria.
Le richieste inviate all'elaborazione Prioritaria saranno fatturate separatamente e non saranno conteggiate nei pacchetti TPM di Scale Tier acquistati.
Modelli
Non al momento. Valuteremo in futuro se offrire l'elaborazione Prioritaria su altri prodotti oltre ai nostri modelli più recenti.
Limiti di utilizzo
Il consumo dell’elaborazione Prioritaria è trattato allo stesso modo del traffico API standard per quanto riguarda i limiti di velocità.
Affidabilità
Per i clienti Enterprise, per qualsiasi domanda o dubbio, rivolgiti al tuo responsabile di riferimento.
Gli SLA dell’elaborazione Prioritaria saranno trattati come gli SLA di Scale Tier; verranno offerti crediti di servizio qualora non riuscissimo a soddisfarli per i clienti con contratti Enterprise all’interno della finestra temporale prevista.
Politiche
Sì