Elaborazione Prioritaria per i clienti API
Questa offerta è disponibile per i clienti Enterprise. Contatta l’Ufficio vendite per saperne di più.
L'elaborazione Prioritaria offre prestazioni affidabili e ad alta velocità con la flessibilità di pagare a consumo.
Scegliendo l'elaborazione Prioritaria, è possibile sbloccare:
- Latenza prevedibilmente bassa: L'elaborazione prioritaria genera token più velocemente e a un ritmo più stabile rispetto al servizio di elaborazione standard, anche durante i picchi di domanda.
- Uso flessibile e facile: Come l'elaborazione Standard, anche l'elaborazione Prioritaria può essere utilizzata in modo flessibile e a consumo, invece di richiedere un provisioning anticipato.
| Prezzo per 1M token di input | Prezzo per 1M token di input (memorizzati nella cache) | Prezzo per 1M token di output | SLA di uptime3 | SLA di latenza3 | |
|---|---|---|---|---|---|
GPT-5.1 esclude il contesto lungo1 | 2,50 USD | 0,250 USD | 20,00 USD | 99,9% | 99% > 50 token al secondo2 |
GPT-5 esclude il contesto lungo1 | 2,50 USD | 0,250 USD | 20,00 USD | 99,9% | 99% > 50 token al secondo2 |
GPT-5 mini esclude il contesto lungo1 | 0,45 USD | 0,045 USD | 3,60 USD | 99,9% | 99% > 80 token al secondo2 |
GPT-5.1 codex esclude il contesto lungo1 | 2,50 USD | 0,250 USD | 20,00 USD | 99,9% | 99% > 50 token al secondo2 |
GPT-5 codex esclude il contesto lungo1 | 2,50 USD | 0,250 USD | 20,00 USD | 99,9% | 99% > 50 token al secondo2 |
GPT-4.1 esclude il contesto lungo1 | 3,50 USD | 0,875 USD | 14,00 USD | 99,9% | 99% > 80 token al secondo2 |
GPT-4.1 mini esclude il contesto lungo1 | 0,70 USD | 0,175 USD | 2,80 USD | 99,9% | 99% > 90 token al secondo2 |
GPT-4.1 nano esclude il contesto lungo1 | 0,20 USD | 0,050 USD | 0,80 USD | 99,9% | 99% > 100 token al secondo2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | 4,25 USD | 2,125 USD | 17,00 USD | 99,9% | 99% > 80 token al secondo2 |
gpt-4o-2024-05-13 | 8,75 USD | — | 26,25 USD | 99,9% | 99% > 80 token al secondo2 |
GPT-4o mini | 0,25 USD | 0,125 USD | 1,00 USD | 99,9% | 99% > 90 token al secondo2 |
o3 | 3,50 USD | 0,875 USD | 14,00 USD | 99,9% | 99% > 80 token al secondo2 |
o4-mini | 2,00 USD | 0,500 USD | 8,00 USD | 99,9% | 99% > 90 token al secondo2 |
Come funziona
I clienti possono indirizzare il traffico verso l'elaborazione Prioritaria su base individuale utilizzando il parametro service_tier esistente, con l'opzione service_tier = "priority".
I token serviti dall'elaborazione Prioritaria saranno fatturati per singolo token, con un prezzo maggiorato rispetto alle tariffe dell'elaborazione Standard.
Oltre alla possibilità di essere configurati a livello di richiesta, prevediamo di aggiungere a breve termine la possibilità di effettuare l'opt-in a livello di progetto.
Limiti
- I limiti di velocità di elaborazione Prioritaria sono condivisi con altri livelli di servizio.
- In rari casi, un rapido aumento dei token per minuto di elaborazione Prioritaria può portare a raggiungere i limiti della velocità di rampa. Se si supera il limite della velocità di rampa, il traffico aggiuntivo può essere inviato all'elaborazione Standard.
Tariffe
Scale Tier rimarrà separato dall'elaborazione Prioritaria.
Le richieste inviate all'elaborazione Prioritaria saranno fatturate separatamente e non saranno conteggiate nei pacchetti TPM di Scale Tier acquistati.
Modelli
Al momento no. Valuteremo in futuro se offrire l'elaborazione Prioritaria su altri prodotti oltre ai nostri ultimi modelli.
Limiti tariffari
Il consumo dell'elaborazione Prioritaria viene trattato come il traffico API standard per quanto riguarda i limiti di velocità.
Affidabilità
Per qualsiasi domanda o dubbio, rivolgiti al responsabile di riferimento.
Gli SLA relativi all’elaborazione Prioritaria saranno trattati come gli SLA di Scale Tier. Verranno offerti crediti di servizio nel caso in cui non riuscissimo a soddisfare tali SLA per i clienti con contratti aziendali durante una determinata finestra temporale.
Politiche
Sì