Xử lý ưu tiên dành cho Khách hàng sử dụng API

Dịch vụ này dành cho khách hàng sử dụng gói Enterprise. Vui lòng liên hệ đội ngũ bán hàng của chúng tôi⁠ để tìm hiểu thêm.

Xử lý ưu tiên sẽ mang lại hiệu suất cao, ổn định cùng với sự linh hoạt của mô hình thanh toán theo mức sử dụng.

Khi chọn Xử lý ưu tiên, bạn sẽ có được:

Độ trễ thấp và có thể dự đoán: Xử lý ưu tiên sẽ tạo ra token nhanh hơn, với tốc độ ổn định hơn so với dịch vụ Xử lý tiêu chuẩn, ngay cả trong những thời điểm nhu cầu tăng cao.
Linh hoạt và dễ sử dụng: Tương tự Xử lý tiêu chuẩn, Xử lý ưu tiên có thể được sử dụng linh hoạt bằng mô hình thanh toán theo mức sử dụng, thay vì phải đăng ký và cung cấp tài nguyên trả trước.

	Mức giá mỗi 1 triệu token đầu vào	Mức giá mỗi 1 triệu token đầu vào (đã lưu bộ nhớ tạm)	Mức giá mỗi 1 triệu token đầu ra	SLA thời gian hoạt động³	SLA độ trễ³
GPT-5.1 không bao gồm khối lượng nội dung lớn¹	2,50 US$	0,250 US$	20,00 US$	99,9%	99% > 50 token mỗi giây²
GPT-5 không bao gồm khối lượng nội dung lớn¹	2,50 US$	0,250 US$	20,00 US$	99,9%	99% > 50 token mỗi giây²
GPT-5 mini không bao gồm khối lượng nội dung lớn¹	0,45 US$	0,045 US$	3,60 US$	99,9%	99% > 80 token mỗi giây²
GPT-5.1 codex không bao gồm khối lượng nội dung lớn¹	2,50 US$	0,250 US$	20,00 US$	99,9%	99% > 50 token mỗi giây²
GPT-5 codex không bao gồm khối lượng nội dung lớn¹	2,50 US$	0,250 US$	20,00 US$	99,9%	99% > 50 token mỗi giây²
GPT-4.1 không bao gồm khối lượng nội dung lớn¹	3,50 US$	0,875 US$	14,00 US$	99,9%	99% > 80 token mỗi giây²
GPT-4.1 mini không bao gồm khối lượng nội dung lớn¹	0,70 US$	0,175 US$	2,80 US$	99,9%	99% > 90 token mỗi giây²
GPT-4.1 nano không bao gồm khối lượng nội dung lớn¹	0,20 US$	0,050 US$	0,80 US$	99,9%	99% > 100 token mỗi giây²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	4,25 US$	2,125 US$	17,00 US$	99,9%	99% > 80 token mỗi giây²
gpt-4o-2024-05-13	8,75 US$	—	26,25 US$	99,9%	99% > 80 token mỗi giây²
GPT-4o mini	0,25 US$	0,125 US$	1,00 US$	99,9%	99% > 90 token mỗi giây²
o3	3,50 US$	0,875 US$	14,00 US$	99,9%	99% > 80 token mỗi giây²
o4-mini	2,00 US$	0,500 US$	8,00 US$	99,9%	99% > 90 token mỗi giây²

1Các yêu cầu ước tính ở mức >128.000 token lời nhắc

2Được tính dựa trên độ trễ yêu cầu p50 trên cơ sở mỗi 5 phút. Đối với những khách hàng có thỏa thuận doanh nghiệp sẵn mà các SLA độ trễ được tính toán dựa trên độ trễ yêu cầu p50 trên cơ sở mỗi phút, các SLA trước đó vẫn được áp dụng.

3Chỉ áp dụng cho khách hàng Enterprise.

Cách thức hoạt động

Khách hàng có thể chuyển hướng lưu lượng đến Xử lý ưu tiên dựa trên từng yêu cầu bằng cách sử dụng tham số service_tier có sẵn, với tùy chọn service_tier = “priority”.

Lượng token dùng bởi Xử lý ưu tiên sẽ được tính phí theo từng token, với mức giá cao hơn so với mức giá của Xử lý tiêu chuẩn.

Ngoài việc được định cấu hình ở cấp độ yêu cầu, chúng tôi cũng dự định bổ sung khả năng lựa chọn sử dụng dịch vụ này ở cấp độ dự án trong tương lai gần.

Hạn chế

Giới hạn tốc độ của Xử lý ưu tiên sẽ được chia sẻ với các cấp bậc dịch vụ khác.
Trong một số trường hợp hiếm hoi, việc tăng đột ngột lượng token mỗi phút của Xử lý ưu tiên có thể dẫn đến chạm ngưỡng giới hạn tốc độ gia tăng. Nếu bạn vượt quá giới hạn tốc độ gia tăng này, lưu lượng truy cập bổ sung có thể sẽ được chuyển sang Xử lý tiêu chuẩn.

Mức giá

Scale Tier sẽ hoạt động tách biệt với Xử lý ưu tiên.

Các yêu cầu được gửi tới Xử lý ưu tiên sẽ được lập hóa đơn riêng và không bị trừ vào các gói TPM của Scale Tier mà bạn đã mua.

Mô hình

Tại thời điểm này thì chưa. Chúng tôi sẽ xem xét sau này có nên cung cấp Xử lý ưu tiên cho những sản phẩm khác ngoài các mô hình mới nhất hay không.

Giới hạn tốc độ

Khi áp dụng giới hạn tốc độ, lượng sử dụng của Xử lý ưu tiên sẽ được tính tương tự như lưu lượng API tiêu chuẩn.

Xử lý ưu tiên có các giới hạn tốc độ gia tăng nhằm đảm bảo hiệu năng cao và ổn định cho mọi khách hàng, trong khi vẫn cung cấp mức giá linh hoạt theo nhu cầu. Nếu (a) hiệu quả Xử lý ưu tiên bị suy giảm VÀ (b) lưu lượng của một khách hàng tăng lên quá nhanh, khi đó một số yêu cầu Ưu tiên có thể sẽ bị hạ cấp xuống Xử lý tiêu chuẩn.

Giới hạn tốc độ gia tăng của Xử lý ưu tiên hiện được định nghĩa là khi xử lý ít nhất 100k TPM rồi tăng lưu lượng thêm >50% token mỗi phút trong vòng chưa đầy 15 phút.

Các yêu cầu xử lý bởi bậc dịch vụ Tiêu chuẩn sẽ được tính phí theo mức giá tiêu chuẩn và không được áp dụng Mục tiêu cấp độ dịch vụ của Xử lý ưu tiên.

Các yêu cầu xử lý bởi bậc dịch vụ Tiêu chuẩn sẽ bao gồm service_tier=”Default” trong phản hồi.

Cách tốt nhất để không vượt quá giới hạn tốc độ gia tăng

Tăng lưu lượng từ từ khi chuyển đổi mô hình. Ví dụ: nếu ứng dụng của bạn đang chuyển từ phiên bản cũ sang phiên bản mới, hãy sử dụng cờ tính năng để chuyển tiếp lưu lượng trong vài giờ thay vì chuyển toàn bộ cùng lúc.
Tránh chạy các tác vụ xử lý dữ liệu lớn hoặc tác vụ không đồng bộ trên Xử lý ưu tiên. Các tác vụ này có thể làm lưu lượng tăng vọt rất nhanh và thường không cần đến hiệu quả cải thiện của Xử lý ưu tiên.
Nếu bạn thường xuyên gặp giới hạn tốc độ gia tăng, hãy cân nhắc mua thêm hoặc chuyển sang sử dụng năng lực Scale Tier.

Độ tin cậy

Vui lòng liên hệ với AD của bạn nếu có câu hỏi hay thắc mắc nào.

Thỏa thuận Cấp độ dịch vụ (SLA) của Xử lý ưu tiên sẽ được áp dụng tương tự như SLA của Scale Tier; tín dụng dịch vụ sẽ được cấp cho khách hàng có hợp đồng doanh nghiệp nếu chúng tôi không đáp ứng được các SLA đó trong một khoảng thời gian nhất định.

Chính sách

Có

Xử lý ưu tiên dành cho Khách hàng sử dụng API

Cách thức hoạt động

Hạn chế

Mức giá

Dịch vụ này tương tác với Scale Tier như thế nào?

Tôi có thể tự động chuyển lưu lượng vượt mức của Scale Tier sang Xử lý ưu tiên không?

Mức cam kết chi tiêu hàng năm của tôi có bị ràng buộc với một chế độ xử lý cụ thể không?

Tôi vẫn được giảm giá cho số token đầu vào đã lưu vào bộ nhớ tạm?

Cách xem mức sử dụng và chi phí của Xử lý ưu tiên?

Mô hình

Xử lý ưu tiên có áp dụng cho các mô hình ngữ cảnh dài, được tinh chỉnh, mô hình nhúng, v.v. không?

Các phương thức khác hoạt động với Xử lý ưu tiên như thế nào?

Liệu các mô hình trong tương lai có được hỗ trợ không?

Giới hạn tốc độ

Giới hạn tốc độ là gì?

Giới hạn tốc độ gia tăng là gì?

Giới hạn tốc độ gia tăng có được chia sẻ giữa các dự án hoặc tổ chức của tôi không?

Độ tin cậy

Điều gì xảy ra nếu hệ thống không đáp ứng mục tiêu độ trễ?

Chính sách

Xử lý ưu tiên có tương thích với Địa điểm lưu trữ dữ liệu không?

Xử lý ưu tiên có tương thích với ZDR và BAA không?

Xử lý ưu tiên dành cho Khách hàng sử dụng API

Cách thức hoạt động

Hạn chế

Mức giá

Dịch vụ này tương tác với Scale Tier như thế nào?

Tôi có thể tự động chuyển lưu lượng vượt mức của Scale Tier sang Xử lý ưu tiên không?

Mức cam kết chi tiêu hàng năm của tôi có bị ràng buộc với một chế độ xử lý cụ thể không?

Tôi vẫn được giảm giá cho số token đầu vào đã lưu vào bộ nhớ tạm?

Cách xem mức sử dụng và chi phí của Xử lý ưu tiên?

Mô hình

Xử lý ưu tiên có áp dụng cho các mô hình ngữ cảnh dài, được tinh chỉnh, mô hình nhúng, v.v. không?

Các phương thức khác hoạt động với Xử lý ưu tiên như thế nào?

Liệu các mô hình trong tương lai có được hỗ trợ không?

Giới hạn tốc độ

Giới hạn tốc độ là gì?

Giới hạn tốc độ gia tăng là gì?

Giới hạn tốc độ gia tăng có được chia sẻ giữa các dự án hoặc tổ chức của tôi không?

Độ tin cậy

Điều gì xảy ra nếu hệ thống không đáp ứng mục tiêu độ trễ?

Chính sách

Xử lý ưu tiên có tương thích với Địa điểm lưu trữ dữ liệu không?

Xử lý ưu tiên có tương thích với ZDR và ​​BAA không?

Xử lý ưu tiên có tương thích với ZDR và BAA không?