Bỏ qua nội dung chính
OpenAI

Xử lý ưu tiên dành cho Khách hàng sử dụng API

Dịch vụ này dành cho khách hàng sử dụng gói Enterprise. Vui lòng liên hệ đội ngũ bán hàng của chúng tôi để tìm hiểu thêm.

Xử lý ưu tiên sẽ mang lại hiệu suất cao, ổn định cùng với sự linh hoạt của mô hình thanh toán theo mức sử dụng.

Khi chọn Xử lý ưu tiên, bạn sẽ có được:

  • Độ trễ thấp và có thể dự đoán: Xử lý ưu tiên sẽ tạo ra token nhanh hơn, với tốc độ ổn định hơn so với dịch vụ Xử lý tiêu chuẩn, ngay cả trong những thời điểm nhu cầu tăng cao.
  • Linh hoạt và dễ sử dụng: Tương tự Xử lý tiêu chuẩn, Xử lý ưu tiên có thể được sử dụng linh hoạt bằng mô hình thanh toán theo mức sử dụng, thay vì phải đăng ký và cung cấp tài nguyên trả trước.
Mức giá mỗi 1 triệu token đầu vàoMức giá mỗi 1 triệu token đầu vào (đã lưu bộ nhớ tạm)Mức giá mỗi 1 triệu token đầu raSLA thời gian hoạt động3SLA độ trễ3
GPT-5.1
không bao gồm khối lượng nội dung lớn1
2,50 US$0,250 US$20,00 US$99,9%99% > 50 token mỗi giây2
GPT-5
không bao gồm khối lượng nội dung lớn1
2,50 US$0,250 US$20,00 US$99,9%99% > 50 token mỗi giây2
GPT-5 mini
không bao gồm khối lượng nội dung lớn1
0,45 US$0,045 US$3,60 US$99,9%99% > 80 token mỗi giây2
GPT-5.1 codex
không bao gồm khối lượng nội dung lớn1
2,50 US$0,250 US$20,00 US$99,9%99% > 50 token mỗi giây2
GPT-5 codex
không bao gồm khối lượng nội dung lớn1
2,50 US$0,250 US$20,00 US$99,9%99% > 50 token mỗi giây2
GPT-4.1
không bao gồm khối lượng nội dung lớn1
3,50 US$0,875 US$14,00 US$99,9%99% > 80 token mỗi giây2
GPT-4.1 mini
không bao gồm khối lượng nội dung lớn1
0,70 US$0,175 US$2,80 US$99,9%99% > 90 token mỗi giây2
GPT-4.1 nano
không bao gồm khối lượng nội dung lớn1
0,20 US$0,050 US$0,80 US$99,9%99% > 100 token mỗi giây2
GPT-4o
gpt-4o-2024-11-20
gpt-4o-2024-08-06
4,25 US$2,125 US$17,00 US$99,9%99% > 80 token mỗi giây2
gpt-4o-2024-05-13
8,75 US$26,25 US$99,9%99% > 80 token mỗi giây2
GPT-4o mini
0,25 US$0,125 US$1,00 US$99,9%99% > 90 token mỗi giây2
o3
3,50 US$0,875 US$14,00 US$99,9%99% > 80 token mỗi giây2
o4-mini
2,00 US$0,500 US$8,00 US$99,9%99% > 90 token mỗi giây2
1Các yêu cầu ước tính ở mức >128.000 token lời nhắc
2Được tính dựa trên độ trễ yêu cầu p50 trên cơ sở mỗi 5 phút. Đối với những khách hàng có thỏa thuận doanh nghiệp sẵn mà các SLA độ trễ được tính toán dựa trên độ trễ yêu cầu p50 trên cơ sở mỗi phút, các SLA trước đó vẫn được áp dụng.
3Chỉ áp dụng cho khách hàng Enterprise.

Cách thức hoạt động

Khách hàng có thể chuyển hướng lưu lượng đến Xử lý ưu tiên dựa trên từng yêu cầu bằng cách sử dụng tham số service_tier có sẵn, với tùy chọn service_tier = “priority”.

Lượng token dùng bởi Xử lý ưu tiên sẽ được tính phí theo từng token, với mức giá cao hơn so với mức giá của Xử lý tiêu chuẩn. 

Ngoài việc được định cấu hình ở cấp độ yêu cầu, chúng tôi cũng dự định bổ sung khả năng lựa chọn sử dụng dịch vụ này ở cấp độ dự án trong tương lai gần.

Hạn chế

  • Giới hạn tốc độ của Xử lý ưu tiên sẽ được chia sẻ với các cấp bậc dịch vụ khác. 
  • Trong một số trường hợp hiếm hoi, việc tăng đột ngột lượng token mỗi phút của Xử lý ưu tiên có thể dẫn đến chạm ngưỡng giới hạn tốc độ gia tăng. Nếu bạn vượt quá giới hạn tốc độ gia tăng này, lưu lượng truy cập bổ sung có thể sẽ được chuyển sang Xử lý tiêu chuẩn.

Mức giá

Scale Tier sẽ hoạt động tách biệt với Xử lý ưu tiên.

Các yêu cầu được gửi tới Xử lý ưu tiên sẽ được lập hóa đơn riêng và không bị trừ vào các gói TPM của Scale Tier mà bạn đã mua.

Mô hình

Tại thời điểm này thì chưa. Chúng tôi sẽ xem xét sau này có nên cung cấp Xử lý ưu tiên cho những sản phẩm khác ngoài các mô hình mới nhất hay không.

Giới hạn tốc độ

Khi áp dụng giới hạn tốc độ, lượng sử dụng của Xử lý ưu tiên sẽ được tính tương tự như lưu lượng API tiêu chuẩn.

Độ tin cậy

Vui lòng liên hệ với AD của bạn nếu có câu hỏi hay thắc mắc nào. 

Thỏa thuận Cấp độ dịch vụ (SLA) của Xử lý ưu tiên sẽ được áp dụng tương tự như SLA của Scale Tier; tín dụng dịch vụ sẽ được cấp cho khách hàng có hợp đồng doanh nghiệp nếu chúng tôi không đáp ứng được các SLA đó trong một khoảng thời gian nhất định.

Chính sách