Vorrangige Bearbeitung für API-Kunden

Dieses Angebot ist für Enterprise-Kunden verfügbar. Bitte wende dich an unser Vertriebsteam⁠, um mehr zu erfahren.

Die vorrangige Verarbeitung bietet zuverlässige Hochgeschwindigkeitsleistung mit der Flexibilität des „Pay-as-you-go“-Dienstes

Durch Auswahl der vorrangigen Bearbeitung erhältst du Folgendes:

Vorhersehbar niedrige Latenz: Bei der vorrangigen Verarbeitung werden Tokens schneller und mit einer konstanteren Geschwindigkeit generiert als beim Standardverarbeitungsdienst, auch bei Spitzennachfrage.
Benutzerfreundliche Flexibilität: Wie bei der Standardverarbeitung ist auch bei der vorrangigen Verarbeitung ein flexibler Zugriff auf die nutzungsabhängige Bezahlung möglich, ohne dass eine Bereitstellung im Voraus erforderlich ist.

	Preis pro 1 Million Eingabe-Tokens	Preis pro 1 Million Eingabe-Tokens (zwischengespeichert)	Preis pro 1 Million Output-Tokens	Uptime SLA³	Latenz-SLA (Service Level Agreement)³
GPT-5.1 schließt Langzeit-Kontext aus¹	2,50 $	0,250 $	20,00 $	99,9 %	99 % > 50 Tokens pro Sekunde²
GPT-5 schließt Langzeit-Kontext aus¹	2,50 $	0,250 $	20,00 $	99,9 %	99 % > 50 Tokens pro Sekunde²
GPT-5 mini schließt Langzeit-Kontext aus¹	0,45 $	0,045 $	3,60 $	99,9 %	99 % > 80 Tokens pro Sekunde²
GPT-5.1 codex schließt Langzeit-Kontext aus¹	2,50 $	0,250 $	20,00 $	99,9 %	99 % > 50 Tokens pro Sekunde²
GPT-5 codex schließt Langzeit-Kontext aus¹	2,50 $	0,250 $	20,00 $	99,9 %	99 % > 50 Tokens pro Sekunde²
GPT-4.1 schließt Langzeit-Kontext aus¹	3,50 $	0,875 $	14,00 $	99,9 %	99 % > 80 Tokens pro Sekunde²
GPT-4.1 mini schließt Langzeit-Kontext aus¹	0,70 $	0,175 $	2,80 $	99,9 %	99 % > 90 Tokens pro Sekunde²
GPT-4.1 nano schließt Langzeit-Kontext aus¹	0,20 $	0,050 $	0,80 $	99,9 %	99 % > 100 Tokens pro Sekunde²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	4,25 $	2,125 $	17,00 $	99,9 %	99 % > 80 Tokens pro Sekunde²
gpt-4o-2024-05-13	8,75 $	—	26,25 $	99,9 %	99 % > 80 Tokens pro Sekunde²
GPT-4o mini	0,25 $	0,125 $	1,00 $	99,9 %	99 % > 90 Tokens pro Sekunde²
o3	3,50 $	0,875 $	14,00 $	99,9 %	99 % > 80 Tokens pro Sekunde²
o4-mini	2,00 $	0,500 $	8,00 $	99,9 %	99 % > 90 Tokens pro Sekunde²

1Anfragen mit geschätztem Umfang von über 128.000 Prompt-Tokens

2Berechnet als p50-Anfragelatenz auf 5-Minuten-Basis. Für Kunden mit bestehenden Unternehmensverträgen, deren Latenz-SLAs als p50-Anfragelatenz auf Minutenbasis berechnet werden, gelten die bisherigen SLAs auch weiterhin.

3Gilt nur für Enterprise-Kunden

Funktionsweise

Kunden können den Datenverkehr mithilfe des bestehenden service_tier-Parameters und der Option service_tier = „priority“ auf Anfragebasis an die vorrangige Verarbeitung weiterleiten.

Tokens, die mit der vorrangigen Verarbeitung bereitgestellt werden, werden pro Token abgerechnet und kosten im Vergleich zu den Standardverarbeitungsgebühren einen Aufpreis.

Zusätzlich zur Konfiguration auf Anfrageebene möchten wir in naher Zukunft auch ermöglichen, sich auf Projektebene anzumelden.

Einschränkungen

Die Ratenlimits für die vorrangige Verarbeitung werden mit anderen Servicestufen geteilt.
In seltenen Fällen kann eine schnelle Erhöhung deiner vorrangigen Verarbeitungs-Tokens pro Minute dazu führen, dass du die Ramp-Ratenlimits erreichst. Wenn du das Ramp-Ratenlimit überschreitest, wird zusätzlicher Datenverkehr möglicherweise stattdessen an die Standardverarbeitung gesendet.

Preisgestaltung

Scale Tier bleibt von der vorrangigen Verarbeitung getrennt.

An die vorrangige Verarbeitung gesendete Anfragen werden separat in Rechnung gestellt und nicht auf Ihre erworbenen Scale Tier TPM-Pakete angerechnet.

Modelle

Derzeit nicht. Wir werden in Zukunft prüfen, ob wir die vorrangige Verarbeitung auch für weitere Produkte über unsere neuesten Modelle hinaus anbieten.

Ratenlimits

Der Verbrauch nach vorrangiger Verarbeitung wird hinsichtlich der Ratenlimits genauso behandelt wie der Standard-API-Traffic.

Bei der vorrangigen Verarbeitung gibt es Ramp-Ratenlimits, um eine konstant hohe Leistung für alle Kunden zu gewährleisten und gleichzeitig flexible, bedarfsgerechte Preise zu bieten. Wenn (a) die Leistung der vorrangigen Verarbeitung nachlässt UND (b) der Datenverkehr eines Kunden zu schnell ansteigt, werden einige Prioritätsanfragen möglicherweise stattdessen auf die Standardverarbeitung herabgestuft.

Das aktuelle Ramp-Ratenlimit für die vorrangige Verarbeitung ist so definiert, dass mindestens 100.000 TPM verarbeitet werden und der Datenverkehr in weniger als 15 Minuten um >50 % Tokens pro Minute erhöht wird.

Für Anfragen, die mit der Servicestufe „Standard“ bearbeitet werden, gelten die Standardtarife. Diese sind nicht für die Service-Level-Ziele mit vorrangiger Verarbeitung berechtigt.

Von der Servicestufe „Standard“ verarbeitete Anfragen enthalten in der Antwort service_tier=”Defualt”.

Bewährte Verfahren zum Einhalten deiner Ramp-Ratenlimits

Schrittweise Erhöhung des Traffics, wenn das Modell gewechselt wird. Wenn deine Anwendung beispielsweise von einem vorherigen Schnappschuss auf einen neuen umgestellt wird, verwende ein Funktions-Flag, um den Datenverkehr im Laufe einiger Stunden umzustellen, statt alles gleichzeitig auszuführen.
Vermeide die Ausführung großer Datenverarbeitungsvorgänge oder asynchroner Aufgaben bei der vorrangigen Verarbeitung. Bei diesen Jobs kann der Datenverkehr sehr schnell ansteigen und die verbesserte Leistung der vorrangigen Verarbeitung ist häufig nicht erforderlich.
Wenn du regelmäßig auf Ramp-Ratenlimits stößt, solltest du stattdessen oder zusätzlich den Erwerb von Scale-Tier-Kapazitäten in Erwägung ziehen.

Zuverlässigkeit

Wende dich bei Fragen oder Anliegen bitte an deinen AD.

SLAs für die vorrangige Verarbeitung werden genauso behandelt wie SLAs der Scale-Tier-Stufe. Sollten wir diese SLAs für Kunden mit Unternehmensvereinbarungen innerhalb eines bestimmten Zeitfensters nicht einhalten, werden Servicegutschriften angeboten.

Vorrangige Bearbeitung für API-Kunden

Funktionsweise

Einschränkungen

Preisgestaltung

Wie ist dies mit Scale Tier verbunden?

Kann ich meinen Spillover-Traffic von Scale Tier automatisch an die vorrangige Verarbeitung senden?

Ist meine jährliche Verpflichtung an einen bestimmten Verarbeitungsmodus gebunden?

Erhalte ich weiterhin Rabatt auf zwischengespeicherte Eingabe-Tokens?

Wie kann ich meine Nutzung und Ausgaben für die vorrangige Verarbeitung einsehen?

Modelle

Ist die vorrangige Verarbeitung für Long-Context-, fein abgestimmte Modelle, Einbettungen usw. verfügbar?

Wie funktionieren andere Modalitäten mit der vorrangigen Verarbeitung?

Werden zukünftige Modelle unterstützt?

Ratenlimits

Wie sehen die Ratenlimits aus?

Wie steht es um die Ramp-Ratenlimits?

Werden Ramp-Ratenlimits unter meinen Projekten oder Organisationen aufgeteilt?

Zuverlässigkeit

Was geschieht, wenn das Latenzziel nicht erreicht wird?

Richtlinien

Ist die vorrangige Verarbeitung mit der Datenresidenz kompatibel?

Ist die vorrangige Verarbeitung kompatibel mit ZDR und BAA?