Ir al contenido principal
OpenAI

Procesamiento prioritario para clientes de la API

El procesamiento prioritario te brinda un rendimiento confiable y de alta velocidad con la flexibilidad del pago por uso.

Si optas por el procesamiento prioritario, podrás obtener:

  • Latencia previsiblemente baja: el procesamiento prioritario genera tokens más rápido y a una velocidad más constante que el servicio de procesamiento estándar, incluso durante los picos de demanda.
  • Flexibilidad fácil de usar: al igual que el procesamiento estándar, el procesamiento prioritario se puede usar de manera flexible y con pago por uso, sin necesidad de aprovisionamiento anticipado.
Precio por millón de tókenes de entradaPrecio por millón de tókenes de entrada (en caché)Precio por millón de tókenes de salidaTiempo de actividad garantizado3Latencia garantizada3
GPT-5.2
excluye contexto largo1
3,50 US$0,350 US$28,00 US$99,9 %99 % > 50 tókenes por segundo 2
GPT-5.1
excluye contexto largo1
2,50 US$0,250 US$20,00 US$99,9 %99 % > 50 tókenes por segundo 2
GPT-5
excluye contexto largo1
2,50 US$0,250 US$20,00 US$99,9 %99 % > 50 tókenes por segundo 2
GPT-5 mini
excluye contexto largo1
0,45 US$0,045 US$3,60 US$99,9 %99 % > 80 tókenes por segundo 2
GPT-5.1 codex
excluye contexto largo1
2,50 US$0,250 US$20,00 US$99,9 %99 % > 50 tókenes por segundo 2
GPT-5 codex
excluye contexto largo1
2,50 US$0,250 US$20,00 US$99,9 %99 % > 50 tókenes por segundo 2
GPT-4.1
excluye contexto largo1
3,50 US$0,875 US$14,00 US$99,9 %99 % > 80 tókenes por segundo 2
GPT-4.1 mini
excluye contexto largo1
0,70 US$0,175 US$2,80 US$99,9 %99 % > 90 tókenes por segundo 2
GPT-4.1 nano
excluye contexto largo1
0,20 US$0,050 US$0,80 US$99,9 %99 % > 100 tókenes por segundo 2
GPT-4o
gpt-4o-2024-11-20
gpt-4o-2024-08-06
4,25 US$2,125 US$17,00 US$99,9 %99 % > 80 tókenes por segundo 2
gpt-4o-2024-05-13
8,75 US$26,25 US$99,9 %99 % > 80 tókenes por segundo 2
GPT-4o mini
0,25 US$0,125 US$1,00 US$99,9 %99 % > 90 tókenes por segundo 2
o3
3,50 US$0,875 US$14,00 US$99,9 %99 % > 80 tókenes por segundo 2
o4-mini
2,00 US$0,500 US$8,00 US$99,9 %99 % > 90 tókenes por segundo 2
1Solicitudes estimadas en >128 000 tókenes de indicación
2Se calcula como latencia p50 de solicitudes en intervalos de 5 minutos. Para los clientes que ya tengan acuerdos empresariales con ANS de latencia p50 de solicitudes por minuto, dichos acuerdos anteriores siguen siendo vigentes.
3Aplicable únicamente a los clientes de Enterprise

¿Cómo funcionan?

Los clientes pueden dirigir el tráfico al procesamiento prioritario en función de cada solicitud utilizando el parámetro service_tier existente, con la opción service_tier = “priority”.

Los tokens a los que se aplique el procesamiento prioritario se facturarán por token, a un precio superior al de la tasa de procesamiento estándar. 

Además de configurarse a nivel de solicitud, también puedes establecer un proyecto como Prioritario en Configuración del proyecto → Nivel de servicio predeterminado: Prioritario. Todavía puedes anular por cada solicitud.

Limitaciones

  • Los límites de velocidad del procesamiento prioritario se comparten con otros niveles de servicio. 
  • En raras ocasiones, los aumentos rápidos de tus tokens por minuto de procesamiento prioritario pueden provocar que alcances los límites de aumento de la velocidad de tráfico. Si excedes el límite de aumento de la velocidad de tráfico, el tráfico adicional podría ser enviado al procesamiento estándar.

Precios

Scale Tier seguirá siendo independiente del procesamiento prioritario.

Las solicitudes enviadas a procesamiento prioritario se facturarán por separado y no se descontarán de los paquetes Scale Tier TPM que hayas adquirido.

Modelos

No por ahora. En el futuro, evaluaremos si ofrecer procesamiento prioritario en productos adicionales más allá de nuestros modelos más recientes.

Límites de velocidad

El consumo de procesamiento prioritario se trata del mismo modo que el tráfico API estándar para los límites de velocidad.

Fiabilidad

Para los clientes de Enterprise, por favor, contacta a tu director de cuenta si tienes alguna pregunta o inquietud. 

Los tiempos de funcionamiento garantizado de procesamiento prioritario se tratarán de la misma manera que los de Scale Tier; se ofrecerán créditos de servicio si no cumplimos con los tiempos para los clientes con acuerdos de Enterprise durante un periodo determinado.

Políticas