Elaborazione Prioritaria per i clienti API

L'elaborazione Prioritaria offre prestazioni affidabili e ad alta velocità con la flessibilità di pagare a consumo.

Scegliendo l'elaborazione Prioritaria, puoi sbloccare:

Latenza prevedibilmente bassa: il servizio di elaborazione Prioritaria genera token più rapidamente e con maggiore costanza rispetto al servizio Standard, anche durante i picchi di domanda.
Flessibilità facile da usare: come l’elaborazione Standard, anche l’elaborazione Prioritaria può essere utilizzata in modo flessibile e a consumo, senza richiedere provisioning anticipato.

	Prezzo per 1M token di input	Prezzo per 1M token di input (memorizzati nella cache)	Prezzo per 1M token di output	SLA di uptime³	SLA di latenza³
GPT-5.2 esclude il contesto lungo¹	3,50 USD	0,350 USD	28,00 USD	99,9%	99% > 50 token al secondo²
GPT-5.1 esclude il contesto lungo¹	2,50 USD	0,250 USD	20,00 USD	99,9%	99% > 50 token al secondo²
GPT-5 esclude il contesto lungo¹	2,50 USD	0,250 USD	20,00 USD	99,9%	99% > 50 token al secondo²
GPT-5 mini esclude il contesto lungo¹	0,45 USD	0,045 USD	3,60 USD	99,9%	99% > 80 token al secondo²
GPT-5.1 codex esclude il contesto lungo¹	2,50 USD	0,250 USD	20,00 USD	99,9%	99% > 50 token al secondo²
GPT-5 codex esclude il contesto lungo¹	2,50 USD	0,250 USD	20,00 USD	99,9%	99% > 50 token al secondo²
GPT-4.1 esclude il contesto lungo¹	3,50 USD	0,875 USD	14,00 USD	99,9%	99% > 80 token al secondo²
GPT-4.1 mini esclude il contesto lungo¹	0,70 USD	0,175 USD	2,80 USD	99,9%	99% > 90 token al secondo²
GPT-4.1 nano esclude il contesto lungo¹	0,20 USD	0,050 USD	0,80 USD	99,9%	99% > 100 token al secondo²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	4,25 USD	2,125 USD	17,00 USD	99,9%	99% > 80 token al secondo²
gpt-4o-2024-05-13	8,75 USD	—	26,25 USD	99,9%	99% > 80 token al secondo²
GPT-4o mini	0,25 USD	0,125 USD	1,00 USD	99,9%	99% > 90 token al secondo²
o3	3,50 USD	0,875 USD	14,00 USD	99,9%	99% > 80 token al secondo²
o4-mini	2,00 USD	0,500 USD	8,00 USD	99,9%	99% > 90 token al secondo²

1Richieste stimate a >128.000 token di prompt

2Calcolata come latenza della richiesta p50 su base 5 minuti. Per i clienti con contratti aziendali che prevedono SLA di latenza calcolati come latenza della richiesta p50 su base al minuto, anche gli SLA precedenti sono ancora applicabili.

3Questa opzione è disponibile solo per i clienti Enterprise

Come funziona

I clienti possono indirizzare il traffico verso l’elaborazione Prioritaria per singola richiesta utilizzando il parametro esistente service_tier, con l’opzione service_tier = “priority”.

I token gestiti dall’elaborazione Prioritaria verranno fatturati per token, con un prezzo premium rispetto alle tariffe dell’elaborazione Standard.

Oltre a essere configurato a livello di richiesta, puoi anche impostare un progetto su Priorità nelle impostazioni del progetto → Livello di servizio predefinito: Priorità. Puoi comunque sovrascrivere per singola richiesta.

Limiti

I limiti di velocità di elaborazione Prioritaria sono condivisi con altri livelli di servizio.
In rari casi, un rapido aumento dei token per minuto di elaborazione Prioritaria può portare a superare i limiti di velocità di rampa. Se superi il limite della velocità di rampa, il traffico aggiuntivo potrebbe essere inviato all'elaborazione Standard.

Tariffe

Il livello Scale rimarrà separato dall'elaborazione Prioritaria.

Le richieste inviate all'elaborazione Prioritaria saranno fatturate separatamente e non saranno conteggiate nei pacchetti TPM di Scale Tier acquistati.

Modelli

Non al momento. Valuteremo in futuro se offrire l'elaborazione Prioritaria su altri prodotti oltre ai nostri modelli più recenti.

Limiti di utilizzo

Il consumo dell’elaborazione Prioritaria è trattato allo stesso modo del traffico API standard per quanto riguarda i limiti di velocità.

L’elaborazione Prioritaria ha limiti di velocità di rampa per garantire prestazioni costantemente elevate a tutti i clienti, offrendo al contempo tariffe flessibili e a consumo. Se (a) le prestazioni dell’elaborazione Prioritaria si riducono e (b) il traffico di un cliente aumenta troppo rapidamente, alcune richieste prioritarie potrebbero essere elaborate con livello Standard.

L’attuale limite di velocità di rampa per l’elaborazione Prioritaria è definito come l’elaborazione di almeno 1M TPM e un aumento del traffico superiore al 50% in meno di 15 minuti.

Le richieste elaborate dal livello di servizio Standard saranno fatturate alle tariffe standard e non rientrano negli obiettivi di livello di servizio dell’elaborazione Prioritaria.

Le richieste elaborate dal livello di servizio Standard includeranno service_tier="Default" nella risposta.

Buone pratiche per rimanere entro il tuo limite di velocità di rampa

Aumenta gradualmente il traffico quando cambi modello. Ad esempio, se la tua applicazione sta passando da uno snapshot precedente a uno nuovo, usa un flag di funzionalità per spostare gradualmente il traffico nell’arco di alcune ore, anziché tutto in una volta.
Evita di eseguire job di elaborazione di grandi volumi di dati o job asincroni utilizzando l’elaborazione Prioritaria. Questi job possono aumentare il traffico molto rapidamente e spesso non necessitano delle prestazioni migliorate dell’elaborazione Prioritaria.
Se incontri abitualmente limiti della velocità di rampa, considera l’acquisto di capacità Scale Tier in sostituzione o in aggiunta.

Affidabilità

Per i clienti Enterprise, per qualsiasi domanda o dubbio, rivolgiti al tuo responsabile di riferimento.

Gli SLA dell’elaborazione Prioritaria saranno trattati come gli SLA di Scale Tier; verranno offerti crediti di servizio qualora non riuscissimo a soddisfarli per i clienti con contratti Enterprise all’interno della finestra temporale prevista.

Politiche

Sì

Elaborazione Prioritaria per i clienti API

Come funziona

Limiti

Tariffe

(Per i clienti Enterprise) In che modo questo interagisce con Scale Tier?

(Per i clienti Enterprise) Posso inviare automaticamente alla modalità Prioritaria il traffico di spill-over di Scale Tier?

(Per i clienti Enterprise) Il mio impegno annuale è legato a una modalità di elaborazione specifica?

Ho ancora diritto a uno sconto sui token di input memorizzati nella cache?

Come posso vedere l'uso e la spesa del mio servizio di elaborazione Prioritaria?

Modelli

L’elaborazione Prioritaria è disponibile per contesti lunghi, modelli ottimizzati, embeddings, ecc.?

Come funzionano le altre modalità con l'elaborazione Prioritaria?

I modelli futuri saranno supportati?

Limiti di utilizzo

Quali sono i limiti di velocità di elaborazione?

Quali sono i limiti di velocità di rampa?

I limiti di velocità di rampa sono condivisi tra i miei progetti o le mie organizzazioni?

Affidabilità

(Per i clienti Enterprise) Cosa succede se non viene raggiunto l'obiettivo di latenza?

Politiche

L'elaborazione Prioritaria è compatibile con la residenza dei dati?

L'elaborazione Prioritaria è compatibile con ZDR e BAA?