Procesamiento prioritario para clientes de la API
El procesamiento prioritario te brinda un rendimiento confiable y de alta velocidad con la flexibilidad del pago por uso.
Si optas por el procesamiento prioritario, podrás obtener:
- Latencia previsiblemente baja: el procesamiento prioritario genera tokens más rápido y a una velocidad más constante que el servicio de procesamiento estándar, incluso durante los picos de demanda.
- Flexibilidad fácil de usar: al igual que el procesamiento estándar, el procesamiento prioritario se puede usar de manera flexible y con pago por uso, sin necesidad de aprovisionamiento anticipado.
| Precio por 1 millón de tokens de entrada | Precio por 1 millón de tokens de entrada (en caché) | Precio por 1 millón de tokens de salida | Tiempo en funcionamiento garantizado3 | Latencia garantizada3 | |
|---|---|---|---|---|---|
GPT-5.2 excluye el contexto extenso1 | USD 3.50 | USD 0.350 | USD 28.00 | 99.9% | 99% > 50 tokens por segundo2 |
GPT-5.1 excluye el contexto extenso1 | USD 2.50 | USD 0.250 | USD 20.00 | 99.9% | 99% > 50 tokens por segundo2 |
GPT-5 excluye el contexto extenso1 | USD 2.50 | USD 0.250 | USD 20.00 | 99.9% | 99% > 50 tokens por segundo2 |
GPT-5 mini excluye el contexto extenso1 | USD 0.45 | USD 0.045 | USD 3.60 | 99.9% | 99% > 80 tokens por segundo2 |
GPT-5.1 codex excluye el contexto extenso1 | USD 2.50 | USD 0.250 | USD 20.00 | 99.9% | 99% > 50 tokens por segundo2 |
GPT-5 codex excluye el contexto extenso1 | USD 2.50 | USD 0.250 | USD 20.00 | 99.9% | 99% > 50 tokens por segundo2 |
GPT-4.1 excluye el contexto extenso1 | USD 3.50 | USD 0.875 | USD 14.00 | 99.9% | 99% > 80 tokens por segundo2 |
GPT-4.1 mini excluye el contexto extenso1 | USD 0.70 | USD 0.175 | USD 2.80 | 99.9% | 99% > 90 tokens por segundo2 |
GPT-4.1 nano excluye el contexto extenso1 | USD 0.20 | USD 0.050 | USD 0.80 | 99.9% | 99% > 100 tokens por segundo2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | USD 4.25 | USD 2.125 | USD 17.00 | 99.9% | 99% > 80 tokens por segundo2 |
gpt-4o-2024-05-13 | USD 8.75 | — | USD 26.25 | 99.9% | 99% > 80 tokens por segundo2 |
GPT-4o mini | USD 0.25 | USD 0.125 | USD 1.00 | 99.9% | 99% > 90 tokens por segundo2 |
o3 | USD 3.50 | USD 0.875 | USD 14.00 | 99.9% | 99% > 80 tokens por segundo2 |
o4-mini | USD 2.00 | USD 0.500 | USD 8.00 | 99.9% | 99% > 90 tokens por segundo2 |
¿Cómo funciona?
Los clientes pueden dirigir el tráfico al procesamiento prioritario en función de cada solicitud utilizando el parámetro service_tier existente, con la opción service_tier = “priority”.
Los tokens a los que se aplique el procesamiento prioritario se facturarán por token, a un precio superior al de la tasa de procesamiento estándar.
Además de poder configurarse a nivel de solicitud, también puedes establecer un proyecto como Prioridad en Configuración del proyecto → Nivel de servicio predeterminado: Prioridad. Aun así, puedes anular esta configuración en cada solicitud.
Limitaciones
- Los límites de velocidad del procesamiento prioritario se comparten con otros niveles de servicio.
- En raras ocasiones, los aumentos rápidos de tus tokens por minuto de procesamiento prioritario pueden provocar que alcances los límites de aumento de la velocidad de tráfico. Si excedes el límite de aumento de la velocidad de tráfico, el tráfico adicional podría ser enviado al procesamiento estándar.
Precios
Scale Tier será independiente del procesamiento prioritario.
Las solicitudes enviadas a procesamiento prioritario se facturarán por separado y no se descontarán de los paquetes Scale Tier TPM que hayas adquirido.
Modelos
No por ahora. En el futuro, vamos a evaluar la posibilidad de ofrecer el procesamiento prioritario en otros productos que no sean nuestros últimos modelos.
Límites de velocidad
El consumo de procesamiento prioritario se trata del mismo modo que el tráfico API estándar para los límites de velocidad.
Confiabilidad
Para los clientes Enterprise, por favor comunícate con tu administrador de cuenta si tienes alguna pregunta o inquietud.
Los tiempos de funcionamiento garantizado de procesamiento prioritario se tratarán de la misma manera que los de Scale Tier; se ofrecerán créditos de servicio si no cumplimos con los tiempos para los clientes con acuerdos de Enterprise durante un periodo determinado.
Políticas
Sí