Elaborazione Prioritaria per i clienti API

Questa offerta è disponibile per i clienti Enterprise. Contatta l’Ufficio vendite⁠ per saperne di più.

L'elaborazione Prioritaria offre prestazioni affidabili e ad alta velocità con la flessibilità di pagare a consumo.

Scegliendo l'elaborazione Prioritaria, è possibile sbloccare:

Latenza prevedibilmente bassa: L'elaborazione prioritaria genera token più velocemente e a un ritmo più stabile rispetto al servizio di elaborazione standard, anche durante i picchi di domanda.
Uso flessibile e facile: Come l'elaborazione Standard, anche l'elaborazione Prioritaria può essere utilizzata in modo flessibile e a consumo, invece di richiedere un provisioning anticipato.

	Prezzo per 1M token di input	Prezzo per 1M token di input (memorizzati nella cache)	Prezzo per 1M token di output	SLA di uptime³	SLA di latenza³
GPT-5.1 esclude il contesto lungo¹	2,50 USD	0,250 USD	20,00 USD	99,9%	99% > 50 token al secondo²
GPT-5 esclude il contesto lungo¹	2,50 USD	0,250 USD	20,00 USD	99,9%	99% > 50 token al secondo²
GPT-5 mini esclude il contesto lungo¹	0,45 USD	0,045 USD	3,60 USD	99,9%	99% > 80 token al secondo²
GPT-5.1 codex esclude il contesto lungo¹	2,50 USD	0,250 USD	20,00 USD	99,9%	99% > 50 token al secondo²
GPT-5 codex esclude il contesto lungo¹	2,50 USD	0,250 USD	20,00 USD	99,9%	99% > 50 token al secondo²
GPT-4.1 esclude il contesto lungo¹	3,50 USD	0,875 USD	14,00 USD	99,9%	99% > 80 token al secondo²
GPT-4.1 mini esclude il contesto lungo¹	0,70 USD	0,175 USD	2,80 USD	99,9%	99% > 90 token al secondo²
GPT-4.1 nano esclude il contesto lungo¹	0,20 USD	0,050 USD	0,80 USD	99,9%	99% > 100 token al secondo²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	4,25 USD	2,125 USD	17,00 USD	99,9%	99% > 80 token al secondo²
gpt-4o-2024-05-13	8,75 USD	—	26,25 USD	99,9%	99% > 80 token al secondo²
GPT-4o mini	0,25 USD	0,125 USD	1,00 USD	99,9%	99% > 90 token al secondo²
o3	3,50 USD	0,875 USD	14,00 USD	99,9%	99% > 80 token al secondo²
o4-mini	2,00 USD	0,500 USD	8,00 USD	99,9%	99% > 90 token al secondo²

1Richieste stimate a >128.000 token di prompt

2Calcolata come latenza della richiesta p50 su base 5 minuti. Per i clienti con contratti aziendali che prevedono SLA di latenza calcolati come latenza della richiesta p50 su base al minuto, anche gli SLA precedenti sono ancora applicabili.

3Questa opzione è disponibile solo per i clienti Enterprise

Come funziona

I clienti possono indirizzare il traffico verso l'elaborazione Prioritaria su base individuale utilizzando il parametro service_tier esistente, con l'opzione service_tier = "priority".

I token serviti dall'elaborazione Prioritaria saranno fatturati per singolo token, con un prezzo maggiorato rispetto alle tariffe dell'elaborazione Standard.

Oltre alla possibilità di essere configurati a livello di richiesta, prevediamo di aggiungere a breve termine la possibilità di effettuare l'opt-in a livello di progetto.

Limiti

I limiti di velocità di elaborazione Prioritaria sono condivisi con altri livelli di servizio.
In rari casi, un rapido aumento dei token per minuto di elaborazione Prioritaria può portare a raggiungere i limiti della velocità di rampa. Se si supera il limite della velocità di rampa, il traffico aggiuntivo può essere inviato all'elaborazione Standard.

Tariffe

Scale Tier rimarrà separato dall'elaborazione Prioritaria.

Le richieste inviate all'elaborazione Prioritaria saranno fatturate separatamente e non saranno conteggiate nei pacchetti TPM di Scale Tier acquistati.

Modelli

Al momento no. Valuteremo in futuro se offrire l'elaborazione Prioritaria su altri prodotti oltre ai nostri ultimi modelli.

Limiti tariffari

Il consumo dell'elaborazione Prioritaria viene trattato come il traffico API standard per quanto riguarda i limiti di velocità.

L'elaborazione Prioritaria ha dei limiti di velocità di rampa per garantire prestazioni costantemente elevate a tutti i clienti, pur offrendo una tariffazione flessibile e su richiesta. Se (a) le prestazioni dell'elaborazione Prioritaria si riducono e (b) il traffico di un cliente aumenta troppo rapidamente, alcune richieste Prioritarie possono essere declassate all'elaborazione Standard.

L'attuale limite di velocità di rampa dell'elaborazione Prioritaria è definito come l'elaborazione di almeno 100k TPM e l'aumento del traffico di >50% di token al minuto in meno di 15 minuti.

Le richieste elaborate dal livello di servizio Standard saranno fatturate alle tariffe standard e non sono ammissibili agli Obiettivi di livello di servizio per l'elaborazione Prioritaria.

Le richieste elaborate dal livello di servizio Standard includeranno service_tier="Defualt" nella risposta.

Le migliori pratiche per rispettare il limite della velocità di rampa

Aumenta gradualmente il traffico quando cambi modello. Ad esempio, se l'applicazione è in fase di transizione da uno snapshot precedente a uno nuovo, utilizza un flag di funzionalità per far transitare il traffico nell'arco di alcune ore anziché tutto in una volta.
Evita di eseguire lavori di elaborazione dati o asincroni di grandi dimensioni con l’elaborazione Prioritaria. Queste attività possono aumentare il traffico molto rapidamente e spesso non hanno bisogno delle prestazioni migliorate dell'elaborazione Prioritaria.
Se si riscontrano abitualmente limiti della velocità di rampa, è opportuno considerare l'acquisto di capacità Scale Tier in sostituzione o in aggiunta.

Affidabilità

Per qualsiasi domanda o dubbio, rivolgiti al responsabile di riferimento.

Gli SLA relativi all’elaborazione Prioritaria saranno trattati come gli SLA di Scale Tier. Verranno offerti crediti di servizio nel caso in cui non riuscissimo a soddisfare tali SLA per i clienti con contratti aziendali durante una determinata finestra temporale.

Politiche

Sì

Elaborazione Prioritaria per i clienti API

Come funziona

Limiti

Tariffe

Come interagisce con Scale Tier?

Posso inviare automaticamente il carico di spill-over di Scale Tier all'elaborazione Prioritaria?

Il mio impegno annuale è legato a una modalità di elaborazione specifica?

Ho ancora diritto a uno sconto sui token di input memorizzati nella cache?

Come posso visualizzare l'utilizzo e la spesa dell'elaborazione Prioritaria?

Modelli

L'elaborazione Prioritaria è disponibile per i contesti lunghi, per i modelli ottimizzati, per le incorporazioni e così via?

Come funzionano le altre modalità con l'elaborazione Prioritaria?

I modelli futuri saranno supportati?

Limiti tariffari

Quali sono i limiti di velocità?

Quali sono i limiti della velocità di rampa?

I limiti di velocità di rampa sono condivisi tra i miei progetti o organizzazioni?

Affidabilità

Cosa succede se non soddisfa l'obiettivo di latenza?

Politiche

L'elaborazione Prioritaria è compatibile con la data residency?

L'elaborazione Prioritaria è compatibile con la ZDR e il BAA?