API 고객을 위한 우선 처리
이 혜택은 Enterprise 고객에게 제공됩니다. 자세히 알아보려면 세일즈 팀에 문의하세요.
우선 처리는 안정적이고 빠른 성능과 함께, 사용한 만큼 결제하는 유연성을 갖추고 있습니다.
우선 처리를 선택하면 다음 혜택이 제공됩니다.
- 예측 가능한 짧은 레이턴시: 우선 처리는 토큰을 더 빠르게 생성하며, 수요가 많을 때도 표준 처리 서비스보다 더 일관된 속도를 제공합니다.
- 사용하기 쉬운 유연성: 표준 처리처럼 우선 처리는 유연하게 액세스할 수 있으며, 사전 프로비저닝을 요구하는 대신 사용한 만큼 결제하는 요금제를 기반으로 합니다.
| 입력 토큰 100만 개당 가격 | 입력 토큰 100만 개당 가격(캐시됨) | 출력 토큰 100만 개당 가격 | 가동 시간 SLA3 | 레이턴시 SLA3 | |
|---|---|---|---|---|---|
GPT-5.1 Long-Context 제외1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 99% > 50개의 토큰/초2 |
GPT-5 Long-Context 제외1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 99% > 50개의 토큰/초2 |
GPT-5 mini Long-Context 제외1 | US$0.45 | US$0.045 | US$3.60 | 99.9% | 99% > 80개의 토큰/초2 |
GPT-5.1 codex Long-Context 제외1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 99% > 50개의 토큰/초2 |
GPT-5 codex Long-Context 제외1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 99% > 50개의 토큰/초2 |
GPT-4.1 Long-Context 제외1 | US$3.50 | US$0.875 | US$14.00 | 99.9% | 99% > 80개의 토큰/초2 |
GPT-4.1 mini Long-Context 제외1 | US$0.70 | US$0.175 | US$2.80 | 99.9% | 99% > 90개의 토큰/초2 |
GPT-4.1 nano Long-Context 제외1 | US$0.20 | US$0.050 | US$0.80 | 99.9% | 99% > 100개의 토큰/초2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | US$4.25 | US$2.125 | US$17.00 | 99.9% | 99% > 80개의 토큰/초2 |
gpt-4o-2024-05-13 | US$8.75 | — | US$26.25 | 99.9% | 99% > 80개의 토큰/초2 |
GPT-4o mini | US$0.25 | US$0.125 | US$1.00 | 99.9% | 99% > 90개의 토큰/초2 |
o3 | US$3.50 | US$0.875 | US$14.00 | 99.9% | 99% > 80개의 토큰/초2 |
o4-mini | US$2.00 | US$0.500 | US$8.00 | 99.9% | 99% > 90개의 토큰/초2 |
1프롬프트 토큰 12만 8,000개 초과 시 예상 요청 수
25분마다 p50 요청 레이턴시로 계산됩니다. 기존 엔터프라이즈 계약에 1분마다 p50 요청 레이턴시로 계산되는 레이턴시 SLA가 포함된 고객은 기존의 SLA 역시 계속 적용됩니다.
3Enterprise 고객에게만 적용됩니다
작동 방식
고객은 service_tier = “priority” 옵션과 함께 기존의 service_tier 파라미터를 사용하여 각 요청에 대해 트래픽을 우선 처리로 디렉션할 수 있습니다.
우선 처리로 서비스된 토큰은 토큰당 요금으로 결제되며 표준 처리 요금보다 비싼 금액이 청구됩니다.
가까운 시일 내에 요청 수준에서 구성하는 것에 더해 프로젝트 수준의 옵션도 추가할 계획입니다.
제약사항
- 우선 처리 요금 한도는 다른 서비스 등급과 공유됩니다.
- 드문 경우지만 분당 우선 처리 토큰이 급증하면 램프 속도 제한에 도달할 수 있습니다. 램프 속도 제한을 초과하면 추가 트래픽이 표준 처리로 대신 전송될 수 있습니다.
가격
Scale Tier는 우선 처리와 별도로 유지됩니다.
우선 처리로 전송된 요청은 별도로 청구되며 구매한 Scale Tier TPM 번들에 포함되지 않습니다.
모델
현재는 사용할 수 없습니다. 최신 모델 외에 다른 제품에 우선 처리를 제공할지 여부는 추후 평가할 예정입니다.
속도 제한
우선 처리 사용량은 속도 제한에 대해 표준 API 트래픽과 동일하게 취급됩니다.
신뢰성
궁금한 점이나 해결해야 할 문제가 있는 경우 AD에게 문의해 주세요.
우선 처리 SLA는 Scale Tier SLA와 동일하게 취급됩니다. 특정 기간 동안 기업 계약 고객에게 해당 SLA를 충족하지 못할 경우 서비스 크레딧이 제공됩니다.
정책
예