Vorrangige Bearbeitung für API-Kunden
Dieses Angebot ist für Enterprise-Kunden verfügbar. Bitte wende dich an unser Vertriebsteam, um mehr zu erfahren.
Die vorrangige Verarbeitung bietet zuverlässige Hochgeschwindigkeitsleistung mit der Flexibilität des „Pay-as-you-go“-Dienstes
Durch Auswahl der vorrangigen Bearbeitung erhältst du Folgendes:
- Vorhersehbar niedrige Latenz: Bei der vorrangigen Verarbeitung werden Tokens schneller und mit einer konstanteren Geschwindigkeit generiert als beim Standardverarbeitungsdienst, auch bei Spitzennachfrage.
- Benutzerfreundliche Flexibilität: Wie bei der Standardverarbeitung ist auch bei der vorrangigen Verarbeitung ein flexibler Zugriff auf die nutzungsabhängige Bezahlung möglich, ohne dass eine Bereitstellung im Voraus erforderlich ist.
| Preis pro 1 Million Eingabe-Tokens | Preis pro 1 Million Eingabe-Tokens (zwischengespeichert) | Preis pro 1 Million Output-Tokens | Uptime SLA3 | Latenz-SLA (Service Level Agreement)3 | |
|---|---|---|---|---|---|
GPT-5.1 schließt Langzeit-Kontext aus1 | 2,50 $ | 0,250 $ | 20,00 $ | 99,9 % | 99 % > 50 Tokens pro Sekunde2 |
GPT-5 schließt Langzeit-Kontext aus1 | 2,50 $ | 0,250 $ | 20,00 $ | 99,9 % | 99 % > 50 Tokens pro Sekunde2 |
GPT-5 mini schließt Langzeit-Kontext aus1 | 0,45 $ | 0,045 $ | 3,60 $ | 99,9 % | 99 % > 80 Tokens pro Sekunde2 |
GPT-5.1 codex schließt Langzeit-Kontext aus1 | 2,50 $ | 0,250 $ | 20,00 $ | 99,9 % | 99 % > 50 Tokens pro Sekunde2 |
GPT-5 codex schließt Langzeit-Kontext aus1 | 2,50 $ | 0,250 $ | 20,00 $ | 99,9 % | 99 % > 50 Tokens pro Sekunde2 |
GPT-4.1 schließt Langzeit-Kontext aus1 | 3,50 $ | 0,875 $ | 14,00 $ | 99,9 % | 99 % > 80 Tokens pro Sekunde2 |
GPT-4.1 mini schließt Langzeit-Kontext aus1 | 0,70 $ | 0,175 $ | 2,80 $ | 99,9 % | 99 % > 90 Tokens pro Sekunde2 |
GPT-4.1 nano schließt Langzeit-Kontext aus1 | 0,20 $ | 0,050 $ | 0,80 $ | 99,9 % | 99 % > 100 Tokens pro Sekunde2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | 4,25 $ | 2,125 $ | 17,00 $ | 99,9 % | 99 % > 80 Tokens pro Sekunde2 |
gpt-4o-2024-05-13 | 8,75 $ | — | 26,25 $ | 99,9 % | 99 % > 80 Tokens pro Sekunde2 |
GPT-4o mini | 0,25 $ | 0,125 $ | 1,00 $ | 99,9 % | 99 % > 90 Tokens pro Sekunde2 |
o3 | 3,50 $ | 0,875 $ | 14,00 $ | 99,9 % | 99 % > 80 Tokens pro Sekunde2 |
o4-mini | 2,00 $ | 0,500 $ | 8,00 $ | 99,9 % | 99 % > 90 Tokens pro Sekunde2 |
Funktionsweise
Kunden können den Datenverkehr mithilfe des bestehenden service_tier-Parameters und der Option service_tier = „priority“ auf Anfragebasis an die vorrangige Verarbeitung weiterleiten.
Tokens, die mit der vorrangigen Verarbeitung bereitgestellt werden, werden pro Token abgerechnet und kosten im Vergleich zu den Standardverarbeitungsgebühren einen Aufpreis.
Zusätzlich zur Konfiguration auf Anfrageebene möchten wir in naher Zukunft auch ermöglichen, sich auf Projektebene anzumelden.
Einschränkungen
- Die Ratenlimits für die vorrangige Verarbeitung werden mit anderen Servicestufen geteilt.
- In seltenen Fällen kann eine schnelle Erhöhung deiner vorrangigen Verarbeitungs-Tokens pro Minute dazu führen, dass du die Ramp-Ratenlimits erreichst. Wenn du das Ramp-Ratenlimit überschreitest, wird zusätzlicher Datenverkehr möglicherweise stattdessen an die Standardverarbeitung gesendet.
Preisgestaltung
Scale Tier bleibt von der vorrangigen Verarbeitung getrennt.
An die vorrangige Verarbeitung gesendete Anfragen werden separat in Rechnung gestellt und nicht auf Ihre erworbenen Scale Tier TPM-Pakete angerechnet.
Modelle
Derzeit nicht. Wir werden in Zukunft prüfen, ob wir die vorrangige Verarbeitung auch für weitere Produkte über unsere neuesten Modelle hinaus anbieten.
Ratenlimits
Der Verbrauch nach vorrangiger Verarbeitung wird hinsichtlich der Ratenlimits genauso behandelt wie der Standard-API-Traffic.
Zuverlässigkeit
Wende dich bei Fragen oder Anliegen bitte an deinen AD.
SLAs für die vorrangige Verarbeitung werden genauso behandelt wie SLAs der Scale-Tier-Stufe. Sollten wir diese SLAs für Kunden mit Unternehmensvereinbarungen innerhalb eines bestimmten Zeitfensters nicht einhalten, werden Servicegutschriften angeboten.
Richtlinien
Ja