Pemrosesan Prioritas untuk Pelanggan API

Penawaran ini tersedia untuk pelanggan Enterprise. Hubungi tim penjualan kami⁠ untuk mempelajari selengkapnya.

Pemrosesan prioritas menawarkan kinerja andal dan kecepatan tinggi dengan fleksibilitas bayar sesuai pemakaian.

Dengan memilih Pemrosesan prioritas, Anda dapat membuka:

Latensi rendah yang dapat diprediksi: Pemrosesan prioritas membuat token lebih cepat dan dengan kecepatan yang lebih konsisten dibandingkan dengan layanan Pemrosesan standar, bahkan saat permintaan puncak.
Fleksibilitas yang mudah digunakan: Seperti Pemrosesan standar, Pemrosesan prioritas dapat diakses dengan basis bayar sesuai permintaan yang fleksibel bukannya mewajibkan penyediaan lanjutan.

	Harga per 1JT token masukan	Harga per 1JT token masukan (dengan cache)	Harga per 1JT token keluaran	SLA Waktu aktif³	SLA Latensi³
GPT-5.1 mengecualikan konteks panjang¹	US$2,50	US$0,250	US$20,00	99,9%	99% > 50 token per detik²
GPT-5 mengecualikan konteks panjang¹	US$2,50	US$0,250	US$20,00	99,9%	99% > 50 token per detik²
GPT-5 mini mengecualikan konteks panjang¹	US$0,45	US$0,045	US$3,60	99,9%	99% > 80 token per detik²
GPT-5.1 codex mengecualikan konteks panjang¹	US$2,50	US$0,250	US$20,00	99,9%	99% > 50 token per detik²
GPT-5 codex mengecualikan konteks panjang¹	US$2,50	US$0,250	US$20,00	99,9%	99% > 50 token per detik²
GPT-4.1 mengecualikan konteks panjang¹	US$3,50	US$0,875	US$14,00	99,9%	99% > 80 token per detik²
GPT-4.1 mini mengecualikan konteks panjang¹	US$0,70	US$0,175	US$2,80	99,9%	99% > 90 token per detik²
GPT-4.1 nano mengecualikan konteks panjang¹	US$0,20	US$0,050	US$0,80	99,9%	99% > 100 token per detik²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	US$4,25	US$2,125	US$17,00	99,9%	99% > 80 token per detik²
gpt-4o-2024-05-13	US$8,75	—	US$26,25	99,9%	99% > 80 token per detik²
GPT-4o mini	US$0,25	US$0,125	US$1,00	99,9%	99% > 90 token per detik²
o3	US$3,50	US$0,875	US$14,00	99,9%	99% > 80 token per detik²
o4-mini	US$2,00	US$0,500	US$8,00	99,9%	99% > 90 token per detik²

1Permintaan diestimasikan pada token prompt >128K

2Dihitung sebagai latensi permintaan p50 per 5 menit. Untuk pelanggan dengan perjanjian enterprise yang ada, dengan SLA latensi yang dihitung sebagai latensi permintaan p50 per menit, SLA sebelumnya juga masih berlaku.

3Ini hanya berlaku bagi pelanggan Enterprise

Cara kerjanya

Pelanggan dapat mengarahkan Pemrosesan prioritas dengan dasar per permintaan menggunakan parameter service_tier yang sudah ada, dengan opsi service_tier = “priority”.

Token yang dilayani Pemrosesan prioritas akan ditagih dengan dasar per token, dengan harga premium dibandingkan dengan tarif Pemrosesan standar.

Selain dikonfigurasi pada tingkat permintaan, kami juga berencana untuk menambahkan kemampuan untuk memasukkannya ke tingkat proyek dalam jangka waktu dekat.

Keterbatasan

Batasan laju pemrosesan prioritas adalah dibagikan dengan berbagai jenjang layanan lainnya.
Dalam kasus yang jarang, peningkatan cepat terhadap Token per Menit Pemrosesan prioritas dapat mengakibatkan tercapainya batas laju perubahan. Jika Anda melewati batas laju perubahan, maka lalu lintas tambahan mungkin dikirimkan ke Pemrosesan standar.

Harga

Jenjang Skala akan tetap terpisah dari Pemrosesan prioritas.

Permintaan yang dikirim ke Pemrosesan prioritas akan ditagih terpisah dan tidak akan dihitung terhadap pembelian paket TPM Jenjang Skala.

Model

Tidak untuk saat ini. Kami akan melakukan evaluasi di masa mendatang apakah akan menawarkan Pemrosesan prioritas pada produk-produk tambahan di luar dari model terbaru kami.

Batas laju

Konsumsi pemrosesan prioritas diperlakukan seperti lalu lintas API standar untuk batas lajunya.

Pemrosesan prioritas memiliki batas laju perubahan untuk memastikan kinerja tinggi yang konsisten bagi seluruh pelanggan, sekaligus tetap menyediakan harga yang fleksibel dan sesuai permintaan. Jika (a) kinerja Pemrosesan prioritas menurun DAN (b) lalu lintas pelanggan laju perubahannya terlalu cepat, maka beberapa permintaan Prioritas diturunkan menjadi Pemrosesan standar.

Batas laju perubahan Pemrosesan prioritas saat ini ditentukan saat memproses setidaknya 100 ribu TPM, dan meningkatkan lalu lintas >50% Token Per Menit dalam kurang dari 15 menit.

Permintaan yang diproses oleh jenjang layanan Standar akan ditagih dengan tarif standar, dan tidak memenuhi syarat untuk Tujuan Tingkat Layanan Pemrosesan Prioritas.

Permintaan yang diproses dengan jenjang layanan Standar akan menyertakan service_tier=”Default” dalam responsnya.

Praktik terbaik untuk tetap berada dalam batas laju perubahan

Tingkatkan secara bertahap lalu lintas saat mengubah model. Misalnya, jika aplikasi sedang bertransisi dari snapshot sebelumnya ke yang baru, gunakan fitur tandai untuk melakukan transisi lalu lintas dalam kurun waktu beberapa jam daripada melakukan semuanya dalam satu waktu.
Hindari menjalankan pemrosesan data besar atau pekerjaan asinkron pada Pemrosesan prioritas. Pekerjaan ini dapat mengubah lalu lintas dengan sangat cepat, dan sering kali tidak membutuhkan kinerja yang ditingkatkan dari Pemrosesan prioritas.
Jika sering menghadapi batas lalu lintas perubahan, pertimbangkan untuk membeli kapasitas Jenjang Skala atau sebagai tambahan.

Keandalan

Hubungi AD Anda dengan pertanyaan atau masalahnya.

SLA Pemrosesan Prioritas akan diperlakukan sama seperti SLA Jenjang Skala, kredit layanan akan ditawarkan jika kami gagal memenuhi SLA tersebut untuk pelanggan dalam perjanjian enterprise selama jendela waktu yang diberikan.

Pemrosesan Prioritas untuk Pelanggan API

Cara kerjanya

Keterbatasan

Harga

Bagaimana ini berinteraksi dengan Jenjang Skala?

Dapatkah saya otomatis mengirimkan lalu lintas Jenjang Skala yang meluap ke Pemrosesan prioritas?

Apakah komitmen tahunan saya berhubungan dengan mode pemrosesan tertentu?

Apakah saya masih mendapatkan diskon untuk Token input dengan cache?

Bagaimana cara saya melihat penggunaan dan pengeluaran Pemrosesan prioritas?

Model

Apakah Pemrosesan prioritas tersedia untuk konteks panjang, model yang disempurnakan, penyematan, dll?

Bagaimana modalitas lainnya bekerja dengan Pemrosesan prioritas?

Apakah model mendatang akan didukung?

Batas laju

Apa batas lajunya?

Apa batas laju perubahannya?

Apakah batas laju perubahan dibagikan di seluruh proyek atau organisasi saya?

Keandalan

Apa yang terjadi jika tidak memenuhi target latensi?

Kebijakan

Apakah Pemrosesan Prioritas sesuai dengan Residensi Data?

Apakah Pemrosesan Prioritas sesuai dengan ZDR dan BAA?