Procesamiento prioritario para clientes de la API

El procesamiento prioritario te brinda un rendimiento confiable y de alta velocidad con la flexibilidad del pago por uso.

Si optas por el procesamiento prioritario, podrás obtener:

Latencia previsiblemente baja: el procesamiento prioritario genera tokens más rápido y a una velocidad más constante que el servicio de procesamiento estándar, incluso durante los picos de demanda.
Flexibilidad fácil de usar: al igual que el procesamiento estándar, el procesamiento prioritario se puede usar de manera flexible y con pago por uso, sin necesidad de aprovisionamiento anticipado.

	Precio por 1 millón de tokens de entrada	Precio por 1 millón de tokens de entrada (en caché)	Precio por 1 millón de tokens de salida	Tiempo en funcionamiento garantizado³	Latencia garantizada³
GPT-5.5 excluye el contexto extenso¹	USD 12.50	USD 1.250	USD 75.00	99.9%	99% > 50 tokens por segundo²
GPT-5.4 mini excluye el contexto extenso¹	USD 1.50	USD 0.150	USD 9.00	99.9%	99% > 100 tokens por segundo²
GPT-5.4 excluye el contexto extenso¹	USD 5.00	USD 0.500	USD 30.00	99.9%	99% > 50 tokens por segundo²
GPT-5.2 excluye el contexto extenso¹	USD 3.50	USD 0.350	USD 28.00	99.9%	99% > 50 tokens por segundo²
GPT-5.1 excluye el contexto extenso¹	USD 2.50	USD 0.250	USD 20.00	99.9%	99% > 50 tokens por segundo²
GPT-5 excluye el contexto extenso¹	USD 2.50	USD 0.250	USD 20.00	99.9%	99% > 50 tokens por segundo²
GPT-5 mini excluye el contexto extenso¹	USD 0.45	USD 0.045	USD 3.60	99.9%	99% > 80 tokens por segundo²
GPT-5.1 codex excluye el contexto extenso¹	USD 2.50	USD 0.250	USD 20.00	99.9%	99% > 50 tokens por segundo²
GPT-5 codex excluye el contexto extenso¹	USD 2.50	USD 0.250	USD 20.00	99.9%	99% > 50 tokens por segundo²
GPT-4.1 excluye el contexto extenso¹	USD 3.50	USD 0.875	USD 14.00	99.9%	99% > 80 tokens por segundo²
GPT-4.1 mini excluye el contexto extenso¹	USD 0.70	USD 0.175	USD 2.80	99.9%	99% > 90 tokens por segundo²
GPT-4.1 nano excluye el contexto extenso¹	USD 0.20	USD 0.050	USD 0.80	99.9%	99% > 100 tokens por segundo²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	USD 4.25	USD 2.125	USD 17.00	99.9%	99% > 80 tokens por segundo²
gpt-4o-2024-05-13	USD 8.75	—	USD 26.25	99.9%	99% > 80 tokens por segundo²
GPT-4o mini	USD 0.25	USD 0.125	USD 1.00	99.9%	99% > 90 tokens por segundo²
o3	USD 3.50	USD 0.875	USD 14.00	99.9%	99% > 80 tokens por segundo²
o4-mini	USD 2.00	USD 0.500	USD 8.00	99.9%	99% > 90 tokens por segundo²

1Solicitudes estimadas en >128 000 tokens de mensaje

2Calculado con la latencia de solicitud p50 en intervalos de 5 minutos. Las garantías de funcionamiento anteriores también siguen siendo aplicables a los clientes con contratos empresariales existentes que tienen acuerdos de latencia calculados según la latencia p50 de las solicitudes en intervalos por minuto.

3Aplica únicamente para clientes Enterprise

¿Cómo funciona?

Los clientes pueden dirigir el tráfico al procesamiento prioritario en función de cada solicitud utilizando el parámetro service_tier existente, con la opción service_tier = “priority”.

Los tokens a los que se aplique el procesamiento prioritario se facturarán por token, a un precio superior al de la tasa de procesamiento estándar.

Además de poder configurarse a nivel de solicitud, también puedes establecer un proyecto como Prioridad en Configuración del proyecto → Nivel de servicio predeterminado: Prioridad. Aun así, puedes anular esta configuración en cada solicitud.

Limitaciones

Los límites de velocidad del procesamiento prioritario se comparten con otros niveles de servicio.
En raras ocasiones, los aumentos rápidos de tus tokens por minuto de procesamiento prioritario pueden provocar que alcances los límites de aumento de la velocidad de tráfico. Si excedes el límite de aumento de la velocidad de tráfico, el tráfico adicional podría ser enviado al procesamiento estándar.

Procesamiento prioritario para clientes de la API

¿Cómo funciona?

Limitaciones

Precios

Modelos

Límites de velocidad

Confiabilidad

Políticas