API のお客様を対象とした優先処理
このオファリングは Enterprise のお客様にご利用いただけます。詳しくは、当社の営業チームにお問い合わせください。
優先処理では、柔軟な従量課金制を使用した信頼性の高い高速パフォーマンスを提供します。
優先処理を選択すると、以下のメリットが得られます。
- 予想どおりの低い遅延:優先処理は、需要ピーク時であっても、標準サービスよりもトークンを速やかに、かつより一定の速度で生成します。
- かんたんに使える柔軟性:標準処理と同様に、優先処理は柔軟な従量課金制で利用することができ、事前のプロビジョニングは不要です。
| 100万入力トークンあたりの料金 | (キャッシュされた)100万入力トークンあたりの料金 | 100万出力トークンあたりの料金 | 稼働率の SLA3 | レイテンシ SLA3 | |
|---|---|---|---|---|---|
GPT-5.1 long-context を除く1 | $2.50 | $0.250 | $20.00 | 99.9% | 99% > 1秒あたり50トークン2 |
GPT-5 long-context を除く1 | $2.50 | $0.250 | $20.00 | 99.9% | 99% > 1秒あたり50トークン2 |
GPT-5 mini long-context を除く1 | $0.45 | $0.045 | $3.60 | 99.9% | 99% > 1秒あたり80トークン2 |
GPT-5.1 codex long-context を除く1 | $2.50 | $0.250 | $20.00 | 99.9% | 99% > 1秒あたり50トークン2 |
GPT-5 codex long-context を除く1 | $2.50 | $0.250 | $20.00 | 99.9% | 99% > 1秒あたり50トークン2 |
GPT-4.1 long-context を除く1 | $3.50 | $0.875 | $14.00 | 99.9% | 99% > 1秒あたり80トークン2 |
GPT-4.1 mini long-context を除く1 | $0.70 | $0.175 | $2.80 | 99.9% | 99% > 1秒あたり90トークン2 |
GPT-4.1 nano long-context を除く1 | $0.20 | $0.050 | $0.80 | 99.9% | 99% > 1秒あたり100トークン2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | $4.25 | $2.125 | $17.00 | 99.9% | 99% > 1秒あたり80トークン2 |
gpt-4o-2024-05-13 | $8.75 | — | $26.25 | 99.9% | 99% > 1秒あたり80トークン2 |
GPT-4o mini | $0.25 | $0.125 | $1.00 | 99.9% | 99% > 1秒あたり90トークン2 |
o3 | $3.50 | $0.875 | $14.00 | 99.9% | 99% > 1秒あたり80トークン2 |
o4-mini | $2.00 | $0.500 | $8.00 | 99.9% | 99% > 1秒あたり90トークン2 |
1128,000以上のプロンプト トークンでの推定リクエスト
2p50リクエストのレイテンシ(5分あたり)として計算p50リクエストのレイテンシ(1分あたり)として計算されるレイテンシ SLA を含む既存のエンタープライズ契約を締結しているお客様については、従来の SLA も引き続き適用されます。
3これは、Enterprise のお客様にのみ該当します
仕組み
お客様は、既存の service_tier パラメーターをオプション service_tier = “priority” で使用することで、リクエストごとにトラフィックを優先処理に送信することができます。
優先処理によって処理されたトークンはトークン単位で課金され、標準処理レートにプレミアムが加えられた料金になります。
リクエストレベルで構成できるだけでなく、近日中にプロジェクトレベルでオプトインできる機能を追加する予定です。
制限事項
- 優先処理のレート制限は他のサービスティアと共有されます。
- まれにですが、1分あたりの優先処理トークン数が急増した場合に、ランプレート制限に達する場合があります。ランプレート制限を超過した場合、追加のトラフィックは標準処理に送られる場合があります。
料金
スケールティアは優先処理とは別々のままです。
優先処理に送信されたリクエストは別途課金され、購入済みのスケールティア TPM バンドルに対してはカウントされません。
モデル
現時点では利用できません。最新モデル以外のその他の製品について優先処理を提供するかどうか、今後評価する予定です。
レート制限
レート制限については、優先処理の使用は標準 API トラフィックと同様に処理されます。
信頼性
質問や懸念事項については AD までお問い合わせください。
優先処理の SLA はスケールティアの SLA と同様に扱われます。エンタープライズ契約を持つお客様については、特定の時間枠で SLA のいずれかを満たせなかった場合、サービスクレジットが提供されます。
ポリシー
はい