Vai al contenuto principale
OpenAI

Elaborazione Prioritaria per i clienti API

Questa offerta è disponibile per i clienti Enterprise. Contatta l’Ufficio vendite per saperne di più.

L'elaborazione Prioritaria offre prestazioni affidabili e ad alta velocità con la flessibilità di pagare a consumo.

Scegliendo l'elaborazione Prioritaria, è possibile sbloccare:

  • Latenza prevedibilmente bassa: L'elaborazione prioritaria genera token più velocemente e a un ritmo più stabile rispetto al servizio di elaborazione standard, anche durante i picchi di domanda.
  • Uso flessibile e facile: Come l'elaborazione Standard, anche l'elaborazione Prioritaria può essere utilizzata in modo flessibile e a consumo, invece di richiedere un provisioning anticipato.
Prezzo per 1M token di inputPrezzo per 1M token di input (memorizzati nella cache)Prezzo per 1M token di outputSLA di uptime3SLA di latenza3
GPT-5.1
esclude il contesto lungo1
2,50 USD0,250 USD20,00 USD99,9%99% > 50 token al secondo2
GPT-5
esclude il contesto lungo1
2,50 USD0,250 USD20,00 USD99,9%99% > 50 token al secondo2
GPT-5 mini
esclude il contesto lungo1
0,45 USD0,045 USD3,60 USD99,9%99% > 80 token al secondo2
GPT-5.1 codex
esclude il contesto lungo1
2,50 USD0,250 USD20,00 USD99,9%99% > 50 token al secondo2
GPT-5 codex
esclude il contesto lungo1
2,50 USD0,250 USD20,00 USD99,9%99% > 50 token al secondo2
GPT-4.1
esclude il contesto lungo1
3,50 USD0,875 USD14,00 USD99,9%99% > 80 token al secondo2
GPT-4.1 mini
esclude il contesto lungo1
0,70 USD0,175 USD2,80 USD99,9%99% > 90 token al secondo2
GPT-4.1 nano
esclude il contesto lungo1
0,20 USD0,050 USD0,80 USD99,9%99% > 100 token al secondo2
GPT-4o
gpt-4o-2024-11-20
gpt-4o-2024-08-06
4,25 USD2,125 USD17,00 USD99,9%99% > 80 token al secondo2
gpt-4o-2024-05-13
8,75 USD26,25 USD99,9%99% > 80 token al secondo2
GPT-4o mini
0,25 USD0,125 USD1,00 USD99,9%99% > 90 token al secondo2
o3
3,50 USD0,875 USD14,00 USD99,9%99% > 80 token al secondo2
o4-mini
2,00 USD0,500 USD8,00 USD99,9%99% > 90 token al secondo2
1Richieste stimate a >128.000 token di prompt
2Calcolata come latenza della richiesta p50 su base 5 minuti. Per i clienti con contratti aziendali che prevedono SLA di latenza calcolati come latenza della richiesta p50 su base al minuto, anche gli SLA precedenti sono ancora applicabili.
3Questa opzione è disponibile solo per i clienti Enterprise

Come funziona

I clienti possono indirizzare il traffico verso l'elaborazione Prioritaria su base individuale utilizzando il parametro service_tier esistente, con l'opzione service_tier = "priority".

I token serviti dall'elaborazione Prioritaria saranno fatturati per singolo token, con un prezzo maggiorato rispetto alle tariffe dell'elaborazione Standard. 

Oltre alla possibilità di essere configurati a livello di richiesta, prevediamo di aggiungere a breve termine la possibilità di effettuare l'opt-in a livello di progetto.

Limiti

  • I limiti di velocità di elaborazione Prioritaria sono condivisi con altri livelli di servizio. 
  • In rari casi, un rapido aumento dei token per minuto di elaborazione Prioritaria può portare a raggiungere i limiti della velocità di rampa. Se si supera il limite della velocità di rampa, il traffico aggiuntivo può essere inviato all'elaborazione Standard.

Tariffe

Scale Tier rimarrà separato dall'elaborazione Prioritaria.

Le richieste inviate all'elaborazione Prioritaria saranno fatturate separatamente e non saranno conteggiate nei pacchetti TPM di Scale Tier acquistati.

Modelli

Al momento no. Valuteremo in futuro se offrire l'elaborazione Prioritaria su altri prodotti oltre ai nostri ultimi modelli.

Limiti tariffari

Il consumo dell'elaborazione Prioritaria viene trattato come il traffico API standard per quanto riguarda i limiti di velocità.

Affidabilità

Per qualsiasi domanda o dubbio, rivolgiti al responsabile di riferimento. 

Gli SLA relativi all’elaborazione Prioritaria saranno trattati come gli SLA di Scale Tier. Verranno offerti crediti di servizio nel caso in cui non riuscissimo a soddisfare tali SLA per i clienti con contratti aziendali durante una determinata finestra temporale.

Politiche