Vai al contenuto principale
OpenAI

Elaborazione Prioritaria per i clienti API

L'elaborazione Prioritaria offre prestazioni affidabili e ad alta velocità con la flessibilità di pagare a consumo.

Scegliendo l'elaborazione Prioritaria, puoi sbloccare:

  • Latenza prevedibilmente bassa: il servizio di elaborazione Prioritaria genera token più rapidamente e con maggiore costanza rispetto al servizio Standard, anche durante i picchi di domanda.
  • Flessibilità facile da usare: come l’elaborazione Standard, anche l’elaborazione Prioritaria può essere utilizzata in modo flessibile e a consumo, senza richiedere provisioning anticipato.
Prezzo per 1M token di inputPrezzo per 1M token di input (memorizzati nella cache)Prezzo per 1M token di outputSLA di uptime3SLA di latenza3
GPT-5.2
esclude il contesto lungo1
3,50 USD0,350 USD28,00 USD99,9%99% > 50 token al secondo2
GPT-5.1
esclude il contesto lungo1
2,50 USD0,250 USD20,00 USD99,9%99% > 50 token al secondo2
GPT-5
esclude il contesto lungo1
2,50 USD0,250 USD20,00 USD99,9%99% > 50 token al secondo2
GPT-5 mini
esclude il contesto lungo1
0,45 USD0,045 USD3,60 USD99,9%99% > 80 token al secondo2
GPT-5.1 codex
esclude il contesto lungo1
2,50 USD0,250 USD20,00 USD99,9%99% > 50 token al secondo2
GPT-5 codex
esclude il contesto lungo1
2,50 USD0,250 USD20,00 USD99,9%99% > 50 token al secondo2
GPT-4.1
esclude il contesto lungo1
3,50 USD0,875 USD14,00 USD99,9%99% > 80 token al secondo2
GPT-4.1 mini
esclude il contesto lungo1
0,70 USD0,175 USD2,80 USD99,9%99% > 90 token al secondo2
GPT-4.1 nano
esclude il contesto lungo1
0,20 USD0,050 USD0,80 USD99,9%99% > 100 token al secondo2
GPT-4o
gpt-4o-2024-11-20
gpt-4o-2024-08-06
4,25 USD2,125 USD17,00 USD99,9%99% > 80 token al secondo2
gpt-4o-2024-05-13
8,75 USD26,25 USD99,9%99% > 80 token al secondo2
GPT-4o mini
0,25 USD0,125 USD1,00 USD99,9%99% > 90 token al secondo2
o3
3,50 USD0,875 USD14,00 USD99,9%99% > 80 token al secondo2
o4-mini
2,00 USD0,500 USD8,00 USD99,9%99% > 90 token al secondo2
1Richieste stimate a >128.000 token di prompt
2Calcolata come latenza della richiesta p50 su base 5 minuti. Per i clienti con contratti aziendali che prevedono SLA di latenza calcolati come latenza della richiesta p50 su base al minuto, anche gli SLA precedenti sono ancora applicabili.
3Questa opzione è disponibile solo per i clienti Enterprise

Come funziona

I clienti possono indirizzare il traffico verso l’elaborazione Prioritaria per singola richiesta utilizzando il parametro esistente service_tier, con l’opzione service_tier = “priority”.

I token gestiti dall’elaborazione Prioritaria verranno fatturati per token, con un prezzo premium rispetto alle tariffe dell’elaborazione Standard. 

Oltre a essere configurato a livello di richiesta, puoi anche impostare un progetto su Priorità nelle impostazioni del progetto → Livello di servizio predefinito: Priorità. Puoi comunque sovrascrivere per singola richiesta.

Limiti

  • I limiti di velocità di elaborazione Prioritaria sono condivisi con altri livelli di servizio. 
  • In rari casi, un rapido aumento dei token per minuto di elaborazione Prioritaria può portare a superare i limiti di velocità di rampa. Se superi il limite della velocità di rampa, il traffico aggiuntivo potrebbe essere inviato all'elaborazione Standard.

Tariffe

Il livello Scale rimarrà separato dall'elaborazione Prioritaria.

Le richieste inviate all'elaborazione Prioritaria saranno fatturate separatamente e non saranno conteggiate nei pacchetti TPM di Scale Tier acquistati.

Modelli

Non al momento. Valuteremo in futuro se offrire l'elaborazione Prioritaria su altri prodotti oltre ai nostri modelli più recenti.

Limiti di utilizzo

Il consumo dell’elaborazione Prioritaria è trattato allo stesso modo del traffico API standard per quanto riguarda i limiti di velocità.

Affidabilità

Per i clienti Enterprise, per qualsiasi domanda o dubbio, rivolgiti al tuo responsabile di riferimento. 

Gli SLA dell’elaborazione Prioritaria saranno trattati come gli SLA di Scale Tier; verranno offerti crediti di servizio qualora non riuscissimo a soddisfarli per i clienti con contratti Enterprise all’interno della finestra temporale prevista.

Politiche