Procesamiento prioritario para clientes de la API

El procesamiento prioritario te brinda un rendimiento confiable y de alta velocidad con la flexibilidad del pago por uso.

Si optas por el procesamiento prioritario, podrás obtener:

Latencia previsiblemente baja: el procesamiento prioritario genera tokens más rápido y a una velocidad más constante que el servicio de procesamiento estándar, incluso durante los picos de demanda.
Flexibilidad fácil de usar: al igual que el procesamiento estándar, el procesamiento prioritario se puede usar de manera flexible y con pago por uso, sin necesidad de aprovisionamiento anticipado.

	Precio por 1 millón de tokens de entrada	Precio por 1 millón de tokens de entrada (en caché)	Precio por 1 millón de tokens de salida	Tiempo en funcionamiento garantizado³	Latencia garantizada³
GPT-5.2 excluye el contexto extenso¹	USD 3.50	USD 0.350	USD 28.00	99.9%	99% > 50 tokens por segundo²
GPT-5.1 excluye el contexto extenso¹	USD 2.50	USD 0.250	USD 20.00	99.9%	99% > 50 tokens por segundo²
GPT-5 excluye el contexto extenso¹	USD 2.50	USD 0.250	USD 20.00	99.9%	99% > 50 tokens por segundo²
GPT-5 mini excluye el contexto extenso¹	USD 0.45	USD 0.045	USD 3.60	99.9%	99% > 80 tokens por segundo²
GPT-5.1 codex excluye el contexto extenso¹	USD 2.50	USD 0.250	USD 20.00	99.9%	99% > 50 tokens por segundo²
GPT-5 codex excluye el contexto extenso¹	USD 2.50	USD 0.250	USD 20.00	99.9%	99% > 50 tokens por segundo²
GPT-4.1 excluye el contexto extenso¹	USD 3.50	USD 0.875	USD 14.00	99.9%	99% > 80 tokens por segundo²
GPT-4.1 mini excluye el contexto extenso¹	USD 0.70	USD 0.175	USD 2.80	99.9%	99% > 90 tokens por segundo²
GPT-4.1 nano excluye el contexto extenso¹	USD 0.20	USD 0.050	USD 0.80	99.9%	99% > 100 tokens por segundo²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	USD 4.25	USD 2.125	USD 17.00	99.9%	99% > 80 tokens por segundo²
gpt-4o-2024-05-13	USD 8.75	—	USD 26.25	99.9%	99% > 80 tokens por segundo²
GPT-4o mini	USD 0.25	USD 0.125	USD 1.00	99.9%	99% > 90 tokens por segundo²
o3	USD 3.50	USD 0.875	USD 14.00	99.9%	99% > 80 tokens por segundo²
o4-mini	USD 2.00	USD 0.500	USD 8.00	99.9%	99% > 90 tokens por segundo²

1Solicitudes estimadas en >128 000 tokens de mensaje

2Calculado con la latencia de solicitud p50 en intervalos de 5 minutos. Las garantías de funcionamiento anteriores también siguen siendo aplicables a los clientes con contratos empresariales existentes que tienen acuerdos de latencia calculados según la latencia p50 de las solicitudes en intervalos por minuto.

3Aplica únicamente para clientes Enterprise

¿Cómo funciona?

Los clientes pueden dirigir el tráfico al procesamiento prioritario en función de cada solicitud utilizando el parámetro service_tier existente, con la opción service_tier = “priority”.

Los tokens a los que se aplique el procesamiento prioritario se facturarán por token, a un precio superior al de la tasa de procesamiento estándar.

Además de poder configurarse a nivel de solicitud, también puedes establecer un proyecto como Prioridad en Configuración del proyecto → Nivel de servicio predeterminado: Prioridad. Aun así, puedes anular esta configuración en cada solicitud.

Limitaciones

Los límites de velocidad del procesamiento prioritario se comparten con otros niveles de servicio.
En raras ocasiones, los aumentos rápidos de tus tokens por minuto de procesamiento prioritario pueden provocar que alcances los límites de aumento de la velocidad de tráfico. Si excedes el límite de aumento de la velocidad de tráfico, el tráfico adicional podría ser enviado al procesamiento estándar.

Precios

Scale Tier será independiente del procesamiento prioritario.

Las solicitudes enviadas a procesamiento prioritario se facturarán por separado y no se descontarán de los paquetes Scale Tier TPM que hayas adquirido.

Modelos

No por ahora. En el futuro, vamos a evaluar la posibilidad de ofrecer el procesamiento prioritario en otros productos que no sean nuestros últimos modelos.

Límites de velocidad

El consumo de procesamiento prioritario se trata del mismo modo que el tráfico API estándar para los límites de velocidad.

El procesamiento prioritario tiene límites en la velocidad de aumento del tráfico para garantizar un rendimiento consistentemente alto para todos los clientes, al mismo tiempo que mantiene precios flexibles y bajo demanda. Si (a) el rendimiento del procesamiento prioritario se degrada y (b) el tráfico de un cliente aumenta demasiado rápido, algunas solicitudes prioritarias podrían degradarse a procesamiento estándar.

El límite actual en la velocidad de aumento del procesamiento prioritario se define como procesar al menos 1 millón de TPM y no incrementar el tráfico en más del 50 % de tokens por minuto en un periodo menor a 15 minutos.

Las solicitudes procesadas con el nivel de servicio estándar se facturarán a tarifas estándar y no serán elegibles para los objetivos de nivel de servicio del procesamiento prioritario.

Las solicitudes procesadas por el nivel de servicio estándar incluirán service_tier="Default" en la respuesta.

Mejores prácticas para mantenerte dentro de tu límite en la velocidad de aumento del tráfico

Aumenta el tráfico de forma gradual al cambiar de modelo. Por ejemplo, si tu aplicación está pasando de una versión anterior a una nueva, utiliza un flag de características para desviar el tráfico durante unas horas en lugar de hacerlo de golpe.
En el procesamiento prioritario, evita ejecutar grandes volúmenes de datos o trabajos asíncronos. Este tipo de trabajos puede aumentar rápidamente el tráfico y, a menudo, no requiere el rendimiento mejorado del procesamiento prioritario.
Si con frecuencia te encuentras con límites de aumento de la velocidad de tráfico, considera adquirir capacidad de Scale Tier, ya sea como alternativa o como complemento.

Confiabilidad

Para los clientes Enterprise, por favor comunícate con tu administrador de cuenta si tienes alguna pregunta o inquietud.

Los tiempos de funcionamiento garantizado de procesamiento prioritario se tratarán de la misma manera que los de Scale Tier; se ofrecerán créditos de servicio si no cumplimos con los tiempos para los clientes con acuerdos de Enterprise durante un periodo determinado.

Políticas

Sí

Procesamiento prioritario para clientes de la API

¿Cómo funciona?

Limitaciones

Precios

(Para clientes Enterprise) ¿Cómo interactúa esto con Scale Tier?

(Para clientes Enterprise) ¿Puedo enviar automáticamente el tráfico excedente de Scale Tier al procesamiento prioritario?

(Para clientes Enterprise) ¿Mi compromiso anual está ligado a un modo de procesamiento en particular?

¿Aún tengo descuento en los tokens de entrada en caché?

¿Cómo puedo ver el uso y el gasto de mi procesamiento prioritario?

Modelos

¿El procesamiento prioritario está disponible para contextos largos, modelos afinados, incrustaciones, etc.?

¿Cómo funcionan las otras modalidades con el procesamiento prioritario?

¿Será compatible con los próximos modelos?

Límites de velocidad

¿Cuáles son los límites de velocidad?

¿Cuáles son los límites de aumento de la velocidad de tráfico?

¿Se comparten los límites de aumento de la velocidad de tráfico en todos mis proyectos u organizaciones?

Confiabilidad

(Para clientes Enterprise) ¿Qué sucede si no se alcanza el objetivo de latencia?

Políticas

¿El procesamiento prioritario es compatible con la residencia de datos?

¿El procesamiento prioritario es compatible con la ZDR y el BAA?