DeepSeek V4-Flash trên quy mô lớn: Hướng dẫn triển khai dựa trên điểm chuẩn

Chọn cách triển khai mô hình ngôn ngữ quy mô lớn trong môi trường thực tế là một trong những quyết định quan trọng nhất — và gây bối rối nhất — mà một đội ngũ AI có thể đưa ra.

Do Farruh Kushnazarov viết

hero_banner

Hướng dẫn thực hành so sánh Token API, PTU, Model Unit và GPU Bare Metal để suy luận LLM trong môi trường thực tế. Những con số thật. Triển khai thật.

Vấn đề mà mọi đội ngũ AI đều phải đối mặt

Chiều thứ Ba, Sarah, trưởng nhóm kỹ thuật tại một công ty khởi nghiệp về công nghệ tài chính đang phát triển nhanh chóng, đóng sầm máy tính xách tay của mình lại.

Nhóm của cô đã dành hai tuần để tích hợp DeepSeek V4-Flash vào chatbot hỗ trợ khách hàng của họ. Mô hình hoạt động rất tốt trong quá trình thử nghiệm. Phản hồi nhanh, suy luận sắc bén và tỷ lệ tạo thông tin sai thấp hơn bất cứ gì họ từng thử trước đây. Bản minh họa rất hoàn hảo.

Sau đó, họ xem xét hóa đơn điện toán đám mây.

Với lưu lượng truy cập hiện tại của họ là khoảng 8 triệu token mỗi ngày, chi phí Token API đang ngốn gần hết ngân sách AI của họ. Và tình hình chỉ càng tồi tệ hơn khi họ triển khai cho nhiều khách hàng hơn.

Sarah có bốn lựa chọn. Nhưng vấn đề là: mọi bài blog cô đọc và mọi buổi giới thiệu giải pháp từ nhà cung cấp mà cô tham dự đều khẳng định lựa chọn của họ là "tốt nhất". Token API được quảng bá là "khởi động nhanh nhất". PTU là "dễ dự đoán nhất". Model Unit là "tiết kiệm chi phí nhất khi mở rộng quy mô". Còn kỹ sư trưởng của cô thì liên tục gợi ý rằng họ nên thuê GPU và tự vận hành mọi thứ.

Vấn đề là gì? Trên thực tế, chưa ai thực sự đánh giá hiệu năng của cả bốn phương án trên cùng một mô hình, với cùng khối lượng công việc và trên cùng một đám mây.

Vì vậy, chúng tôi đã làm điều đó.

Bài viết này trình bày chi tiết những gì chúng tôi đã phát hiện, bao gồm hướng dẫn triển khai từng bước, số liệu điểm chuẩn thực tế và một khuôn khổ quyết định rõ ràng mà bạn có thể sử dụng cho khối lượng công việc của chính mình.

Trước tiên, hãy tìm hiểu bốn cách triển khai LLM trên Alibaba Cloud

Trước khi bắt tay vào viết bất kỳ dòng mã nào, bạn cần hiểu rõ bốn mô hình triển khai hiện có trên Alibaba Cloud. Chúng không đơn thuần chỉ là các gói giá khác nhau. Về bản chất, đây là những mô hình kỹ thuật và kinh tế hoàn toàn khác nhau.

MU_Pricing_Comparison

Lưu ý: Tất cả giá được hiển thị chỉ mang tính ước tính và được tổng hợp từ các nguồn công khai. Giá thực tế có thể sẽ khác tùy theo khu vực, điều khoản hợp đồng và các chương trình ưu đãi.

1. Token API — Thanh toán theo số triệu token sử dụng

Đây là điểm giá khởi đầu mặc định. Bạn gọi một điểm cuối API, gửi câu lệnh, nhận phản hồi từ mô hình và trả phí cho mỗi token được xử lý qua hệ thống.

Cách thức hoạt động: Cụm GPU dùng chung. Yêu cầu của bạn sẽ được xếp vào hàng chờ cùng với yêu cầu của những người dùng khác. Nhà cung cấp dịch vụ đám mây sẽ tự động xử lý việc mở rộng quy mô, xếp vào hàng chờ và cân bằng tải ở phía sau.
Mô hình tính phí: Tuyến tính. 1 triệu token đầu vào cộng với 1 triệu token đầu ra tương ứng với một mức phí cố định bằng USD.
Phù hợp nhất để: Tạo mẫu, ứng dụng có lưu lượng truy cập thấp, khối lượng công việc có mức tăng đột biến khó dự đoán hoặc các đội ngũ muốn tránh hoàn toàn gánh nặng quản lý cơ sở hạ tầng.
Nhược điểm: Khi lưu lượng tăng cao, chi phí sẽ tiếp tục tăng theo tuyến tính không giới hạn. Không có chiết khấu theo mức sử dụng. Và do bạn đang sử dụng một cụm dùng chung, nên độ trễ có thể sẽ tăng đột biến trong các khung giờ cao điểm.

2. PTU (Provisioned Throughput Unit) — Công suất đặt trước

PTU là cách Alibaba Cloud giải quyết vấn đề về tính dự đoán. Thay vì trả phí theo số token sử dụng, bạn mua trước một mức thông lượng được đảm bảo, đo bằng số token mỗi phút (TPM).

Cách thức hoạt động: Bạn đặt trước công suất. Nhà cung cấp dịch vụ đám mây cam kết duy trì mức thông lượng đó, ngay cả khi cụm tài nguyên dùng chung đang chịu tải cao.
Mô hình tính phí: Bạn trả một khoản phí đặt trước cho mức công suất, cùng với mức phí trên mỗi token thấp hơn đối với lượng token thực tế sử dụng.
Phù hợp nhất cho: Các ứng dụng có lưu lượng truy cập trung bình với mô hình sử dụng hàng ngày dự đoán được, chiến dịch tiếp thị có khung thời gian cao điểm đã biết trước hoặc các đội ngũ đang chuyển sang từ Token API và cần khả năng dự báo chi phí tốt hơn.
Nhược điểm:Bạn vẫn phải trả phí cho phần công suất đã đặt trước, dù có sử dụng hay không. Nếu lưu lượng truy cập của bạn thấp hơn mức đã đặt trước, bạn sẽ lãng phí chi phí. Ngược lại, nếu lưu lượng vượt quá mức đó, phần vượt mức sẽ được tính phí theo mô hình Token API.

3. Model Unit (MU) — Suy luận chuyên dụng được quản lý

Đây là lúc câu chuyện trở nên thú vị hơn. Model Unit cung cấp cho bạn một cụm GPU chuyên dụng dành riêng cho khối lượng công việc của bạn, đồng thời toàn bộ hạ tầng vẫn do Alibaba Cloud quản lý.

Cách thức hoạt động: Bạn mua Model Unit (được đo bằng công suất GPU). Nhà cung cấp dịch vụ đám mây sẽ cấp phát các GPU H20 hoặc H200 chuyên dụng, cài đặt công cụ suy luận, xử lý cân bằng tải và cung cấp cho bạn một điểm cuối API riêng. Khối lượng công việc của bạn được vận hành trong môi trường tách biệt. Không bị ảnh hưởng bởi các khối lượng công việc khác.
Mô hình tính phí: Chi phí cố định hàng tháng mỗi đơn vị MU. Hãy hình dung giống như việc thuê một tủ máy chủ chuyên dụng sẽ được quản lý hoàn toàn. Mức sử dụng càng cao thì chi phí thực tế trên mỗi token càng thấp.
Phù hợp nhất cho: Các khối lượng công việc chạy trong môi trường thực tế hơn 8 giờ mỗi ngày, các ứng dụng yêu cầu SLA có độ trễ được đảm bảo, các đội ngũ triển khai mô hình tùy chỉnh hoặc tinh chỉnh và mọi khối lượng công việc mà việc cô lập dữ liệu là yêu cầu tuân thủ bắt buộc.
Nhược điểm: Yêu cầu cam kết ban đầu cao hơn. Bạn cần tính toán quy mô cụm GPU chính xác. Cấp phát quá ít sẽ dẫn đến thiếu công suất. Còn cấp phát quá nhiều thì bạn phải trả phí cho GPU không sử dụng.

4. GPU Bare Metal — Tự xây dựng

Lựa chọn tối hậu. Bạn thuê các phiên bản GPU thô (H20, H200 hoặc sắp tới là B300) và tự triển khai ngăn xếp suy luận riêng của mình.

Cách thức hoạt động: Bạn có toàn quyền kiểm soát. Bạn tự lựa chọn khuôn khổ suy luận (vLLM, SGLang, TensorRT-LLM, TGI), cấu hình lượng tử hóa, quản lý bộ nhớ đệm KV, tự xử lý việc mở rộng quy mô, giám sát và chuyển đổi dự phòng.
Mô hình tính phí: Giá GPU theo giờ cộng với phí băng thông ra ngoài. Không có phí quản lý vận hành vì chính bạn là người quản lý.
Phù hợp nhất cho:Các đội ngũ nghiên cứu có nhu cầu tối ưu hóa chuyên biệt, các công ty đã có đội ngũ vận hành GPU riêng hoặc các khối lượng công việc mà từng mili giây độ trễ đều quan trọng và bạn sẵn sàng tinh chỉnh mọi thông số.
Nhược điểm: Bạn cần một đội ngũ chuyên trách. Vận hành GPU, tối ưu hóa CUDA, triển khai suy luận phân tán, giám sát và trực luân phiên. Chi phí ẩn không nằm ở tiền thuê GPU, mà nằm ở tiền lương của các kỹ sư duy trì hệ thống vận hành ổn định.

Phần 1: Con đường nhanh nhất — Token API của Model Studio dành cho DeepSeek V4-Flash

Hãy bắt đầu với phương án đơn giản nhất. Nếu bạn chưa từng sử dụng các dịch vụ AI của Alibaba Cloud trước đây, thì đây chính là điểm khởi đầu dành cho bạn.

Bước 1: Truy cập Model Studio

console_model_studio

Đăng nhập vào bảng điều khiển Alibaba Cloud và truy cập Model Studio. Đây là kho mô hình hợp nhất và cổng API cho tất cả dịch vụ AI của Alibaba Cloud.

Trong danh mục mô hình, tìm kiếm DeepSeek V4-Flash. Bạn sẽ thấy mô hình này trong danh sách cùng với các mô hình phổ biến khác như Qwen3, GLM và Wan.

Bước 2: Tạo khóa API của bạn

console_api_key

Nhấp vào trang mô hình DeepSeek V4-Flash. Bạn sẽ thấy nút Get API Key. Hãy nhấp vào nút đó, tạo khóa API mới rồi sao chép khóa này vào bảng tạm.

Lưu trữ khóa này một cách bảo mật. Đây là token xác thực dùng cho mọi lệnh gọi API của bạn.

Bước 3: Thử bằng một yêu cầu duy nhất

Dưới đây là một tập lệnh Python tối giản để xác minh rằng mọi thứ đều hoạt động bình thường:

import requests

API_KEY = "your-api-key-here"
ENDPOINT = "https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions"

headers = {
    "Authorization": f"Bearer {API_KEY}",
    "Content-Type": "application/json"
}

payload = {
    "model": "deepseek-v4-flash",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain quantum computing in one paragraph."}
    ],
    "max_tokens": 256
}

response = requests.post(ENDPOINT, headers=headers, json=payload)
print(response.json()["choices"][0]["message"]["content"])

console_playground

Hãy chạy đoạn mã này. Nếu bạn thấy một đoạn văn mạch lạc về điện toán lượng tử thì xin chúc mừng — bạn đã gọi thành công DeepSeek V4-Flash thông qua Token API.

Bước 4: Tìm hiểu về chi phí

Mô hình định giá của Token API áp dụng cách tính phí đơn giản theo số lượng token sử dụng. Bạn sẽ trả phí riêng cho token đầu vào và token đầu ra, trong đó token đầu ra thường có chi phí cao hơn khoảng 4 lần so với token đầu vào.

Đối với một cuộc trò chuyện thông thường với câu lệnh đầu vào 2K token và phản hồi đầu ra 1K token, chi phí cho mỗi yêu cầu chỉ ở mức một phần nhỏ của một xu Mỹ. Ở mức số lượng thấp (ví dụ: 10.000 yêu cầu mỗi ngày), chi phí hàng tháng vẫn ở mức khá thấp. Nhưng chi phí sẽ tăng tuyến tính theo mức sử dụng — và đó chính là vấn đề.

Điều đó hoàn toàn ổn cho giai đoạn tạo mẫu. Nhưng điều gì sẽ xảy ra với 100.000 yêu cầu mỗi ngày? Hay 1 triệu yêu cầu mỗi ngày?

Hãy xem cách chi phí tăng theo quy mô qua ví dụ sau:

Số yêu cầu mỗi ngày	Số token trung bình/yêu cầu	Chi phí hàng tháng tương đối
10.000	3K	1 lần (cơ bản)
50.000	3K	~5 lần
100.000	3K	~10 lần
500.000	3K	~50 lần

cost_scaling_chart

Các con số tăng lên đến mức đáng lo ngại chỉ trong thời gian ngắn. Đó cũng chính là điều Sarah gặp phải ở công ty khởi nghiệp về công nghệ tài chính của cô.

Phần 2: Khi khả năng dự báo là yếu tố then chốt — PTU với thông lượng dành riêng

Giả sử lưu lượng sử dụng của bạn có thể dự báo trước. Bạn có một sản phẩm SaaS với 10.000 người dùng hoạt động hàng ngày và mức sử dụng tăng cao theo dự báo trong khoảng từ 9 giờ sáng đến 6 giờ chiều. Bạn biết rằng mình cần khoảng 500.000 token mỗi phút trong các khung giờ cao điểm.

PTU được thiết kế cho chính trường hợp này.

Cách PTU vận hành trong thực tiễn

Thay vì trả phí theo số token sử dụng, bạn mua một gói PTU đảm bảo một mức thông lượng nhất định. Alibaba Cloud sẽ dành riêng công suất GPU cho khối lượng công việc của bạn. Trong các khung giờ cao điểm, các yêu cầu của bạn sẽ bỏ qua cụm tài nguyên dùng chung và được chuyển trực tiếp đến phần công suất dành riêng.

Mô hình tính phí gồm hai thành phần:

Phí đặt trước: Khoản phí cố định theo giờ hoặc theo tháng cho mức thông lượng được đảm bảo
Phí sử dụng: Mức phí trên mỗi token đã giảm áp dụng cho các token đã sử dụng trong phạm vi công suất bạn đã dành riêng

Nếu vượt quá công suất dành riêng, các yêu cầu vượt mức sẽ được tính phí theo mô hình Token API.

Các tình huống phù hợp để sử dụng PTU

PTU bắt đầu mang lại hiệu quả về mặt chi phí khi số lượng token hàng ngày của bạn đủ lớn để tổng chi phí gồm phí đặt trước và phí sử dụng đã giảm thấp hơn chi phí của mô hình Token API thuần túy. Điểm hòa vốn sẽ phụ thuộc vào mức cụ thể và giá bạn đàm phán được, nhưng có thể tham khảo quy tắc ước lượng sau:

Đối với phần công suất dành riêng, chi phí mỗi token của PTU thường cao gấp khoảng 2–4 lần so với Token API
Đổi lại, bạn được đảm bảo về độ trễ và không phải xếp hàng chờ
Điểm hòa vốn thường đạt được khi mức sử dụng hàng ngày của bạn đạt khoảng 20–40% mức công suất dành riêng

Đối với đội ngũ của Sarah, PTU sẽ phù hợp hơn so với Token API. Nhưng PTU vẫn có giới hạn. Một khi vượt quá mức công suất dành riêng, chi phí sẽ lại tăng vọt. Trong khi đó, họ đang lên kế hoạch tăng quy mô cơ sở người dùng gấp 10 lần trong quý tới.

Phần 3: Cỗ máy chủ lực cho môi trường sản xuất — Triển khai Model Unit (MU)

Đây mới là phần quan trọng nhất. Đội ngũ của Sarah cần một giải pháp có thể mở rộng cùng với sự phát triển của họ mà không làm họ kiệt quệ vì chi phí. Họ cần tài nguyên chuyên dụng, hiệu năng được đảm bảo và một mô hình tính phí mà càng sử dụng nhiều thì chi phí càng thấp.

Họ cần Model Unit.

Tìm hiểu về hiệu quả kinh tế của Model Unit

Đây là điểm mấu chốt tạo nên sự khác biệt của Model Unit so với mọi lựa chọn khác: chi phí cố định.

Bạn trả một khoản phí cố định hàng tháng cho mỗi Model Unit. Dù xử lý 1 triệu token hay 1 tỷ token, chi phí vẫn không thay đổi.

Đối với DeepSeek V4-Flash, một cấu hình điển hình sử dụng 4 đơn vị MU1 trên các GPU H20-141G. Theo ước tính sơ bộ được tổng hợp từ các nguồn công khai:

Một đơn vị MU1 thường có chi phí khoảng vài nghìn USD mỗi tháng
Chiết khấu theo số lượng lên tới khoảng 40% có thể sẽ được áp dụng, giúp giảm đáng kể chi phí trên mỗi đơn vị
Sau khi áp dụng chiết khấu, một lần triển khai gồm 4 đơn vị MU1 thường có chi phí ở mức vài chục nghìn USD mỗi tháng

Bây giờ, hãy so sánh con số đó với Token API với cùng số lượng. Với khoảng 500 triệu token mỗi ngày (tương đương mức mà cấu hình 4×MU1 có thể xử lý ở tải cao điểm), Token API sẽ có chi phí ước tính như sau:

Chi phí Token API ước tính với số lượng đó: khoảng vài chục nghìn USD mỗi tháng

Kết luận rút ra là: ở mức thông lượng cao ổn định, Model Unit có thể giúp tiết kiệm khoảng 40–50% chi phí so với việc sử dụng Token API với số lượng tương đương. Đồng thời, bạn còn được hưởng tài nguyên chuyên dụng cùng SLA được đảm bảo.

Lưu ý: Các số liệu này chỉ là ước tính sơ bộ và chỉ nhằm mục đích minh họa. Giá thực tế phụ thuộc vào khu vực, điều khoản cam kết và số lượng. Hãy luôn xác nhận với biểu giá chính thức trước khi đưa ra quyết định mua.

Nhưng còn một con số thú vị hơn nữa: chi phí hiệu dụng trên mỗi triệu token.

Ở mức sử dụng tối đa của 4 MU1 (TPM cao điểm ~550.000):

Công suất hàng ngày: 550.000 token/phút × 60 phút × 24 giờ = khoảng 792 triệu token/ngày
Tải duy trì thực tế: khoảng 8 giờ/ngày ở mức 50% công suất cao điểm = khoảng 132 triệu token/ngày.
Lượng token hàng tháng: khoảng 4 tỷ token
Chi phí hiệu dụng mỗi triệu token: chỉ bằng một phần nhỏ so với Token API — thấp hơn khoảng 300 lần khi khai thác hết công suất

Dĩ nhiên, không ai vận hành hệ thống ở mức sử dụng 100% suốt 24/7. Hãy xem xét vấn đề này từ góc độ thực tế hơn. Phần lớn các khối lượng công việc trong môi trường thực tế chỉ hoạt động trong giờ làm việc, khoảng 8–12 giờ mỗi ngày, với mức tải thay đổi.

chart1_utilization

Biểu đồ bên trên cho thấy chi phí hiệu dụng mỗi triệu token ở các mức sử dụng hàng ngày khác nhau. Ngay cả khi chỉ sử dụng 4 giờ mỗi ngày, chi phí hiệu dụng của bạn vẫn đủ sức cạnh tranh với Token API. Khi thời gian sử dụng vượt quá 12 giờ mỗi ngày, Model Unit sẽ rẻ hơn đáng kể.

Và dưới đây là phần so sánh chi phí hàng tháng:

chart2_consumption

Điểm hòa vốn so với Token API nằm ở mức khoảng 2,6 tỷ token mỗi ngày. Dưới ngưỡng đó, Token API có chi phí thấp hơn. Trên ngưỡng đó, Model Unit vượt trội rõ rệt.

Những lợi ích thực tế mà Model Unit mang lại

Giá cả không phải là điểm mạnh duy nhất của Model Unit. Điều quan trọng nằm ở những gì bạn có thể làm được với cơ sở hạ tầng chuyên dụng:

Hiệu năng được cô lập hoàn toàn: TPS, TPM và độ trễ của bạn đều được đảm bảo. Không bị ảnh hưởng bởi các khối lượng công việc khác. Không bị suy giảm hiệu năng vào giờ cao điểm.
Hỗ trợ mô hình tùy chỉnh: Triển khai các mô hình đã được tinh chỉnh, checkpoint tùy chỉnh hoặc những mô hình không có trên API công khai.
Suy luận tách biệt P/D: Các giai đoạn điền trước và giải mã chạy trên những nhóm GPU riêng biệt, giúp cải thiện đáng kể thông lượng đối với các khối lượng công việc sử dụng ngữ cảnh dài.
Tối ưu hóa bộ nhớ đệm KV: Bộ nhớ đệm được duy trì xuyên suốt giữa các yêu cầu, giúp giảm độ trễ cho các cuộc hội thoại nhiều lượt.
Tuân thủ dữ liệu: Tất cả dữ liệu của bạn được lưu trữ và xử lý trong cụm chuyên dụng. Không có nguy cơ rò rỉ dữ liệu giữa các khách hàng dùng chung hạ tầng.

Đối với ứng dụng công nghệ tài chính của Sarah, chỉ riêng lợi ích cuối cùng này cũng đã đủ để chuyển đổi. Dữ liệu tài chính không thể được xử lý trên một cụm tài nguyên dùng chung.

Phần 4: Lựa chọn tối hậu — Thuê GPU Bare Metal

Trước khi đi vào triển khai, hãy xác nhận một thực tế mà ai cũng biết nhưng ít người nói ra. Tại sao không thuê GPU rồi tự vận hành mọi thứ luôn?

Đó là một câu hỏi hoàn toàn hợp lý. Và đối với một số đội ngũ, đó thực sự là câu trả lời đúng đắn.

Mô hình Bare Metal trong thực tế

Bạn thuê các phiên bản GPU H20 hoặc H200. Bạn cài đặt vLLM hoặc SGLang. Bạn tải các trọng số của DeepSeek V4-Flash về. Bạn cấu hình song song hóa tensor, song song hóa pipeline, lượng tử hóa và cài đặt bộ nhớ đệm KV. Bạn thiết lập cân bằng tải, giám sát, tự động mở rộng quy mô và chuyển đổi dự phòng.

Sau đó, bạn tự duy trì toàn bộ hệ thống.

Chi phí thực sự

Tiền thuê GPU không phải là khoản chi phí lớn nhất. Chi phí thực sự nằm ở đội ngũ:

Kỹ sư GPU DevOps: mức lương sáu chữ số
Kỹ sư nền tảng máy học: mức lương sáu chữ số (thường còn cao hơn)
Trực luân phiên để xử lý sự cố cho hệ thống suy luận trong môi trường thực tế: vô giá (hoặc ít nhất là cực kỳ tốn kém nếu xét đến nguy cơ kiệt sức)

Ngay cả khi chi phí thuê GPU trên lý thuyết có thấp hơn Model Unit một chút, nhưng tổng chi phí thực tế khi tính cả đội ngũ (thường cao gấp 2–3 lần chi phí thuê GPU) gần như luôn khiến Model Unit trở thành lựa chọn kinh tế hơn cho hệ thống suy luận trong môi trường thực tế.

Những trường hợp Bare Metal chiếm ưu thế:

Nghiên cứu và thử nghiệm: Bạn cần thử mọi phương pháp lượng tử hóa, mọi công cụ suy luận và mọi kỹ thuật tối ưu hóa.
Khối lượng công việc đào tạo: Model Unit chỉ dành cho suy luận. Việc đào tạo đòi hỏi các cấu hình phần cứng khác.
Yêu cầu độ trễ cực thấp: Nếu bạn cần TTFT dưới 50 ms và sẵn sàng tự tinh chỉnh từng CUDA kernel, thì Bare Metal chính là sân chơi dành cho bạn.

Với đội ngũ của Sarah, phương án Bare Metal đã bị loại bỏ ngay từ đầu. Họ cần tập trung phát triển các tính năng, không phải quản lý cụm GPU.

Phần 5: Triển khai DeepSeek V4-Flash trên PAI-EAS bằng Model Unit

Giờ hãy bắt tay vào phần thực hành. Đây là hướng dẫn triển khai từng bước.

PAI-EAS là gì?

pai_eas_architecture

PAI-EAS (Elastic Algorithm Service) là nền tảng phục vụ mô hình được quản lý của Alibaba Cloud. Hãy hình dung PAI-EAS như phòng máy trung tâm, nơi các tài nguyên Model Unit thực sự được cấp phát và nơi các mô hình của bạn được phục vụ.

Khi mua Model Unit, về bản chất bạn đang đặt trước công suất PAI-EAS chuyên dụng kèm theo các cam kết SLA. Model Unit là lớp vỏ thương mại. Còn PAI-EAS là công nghệ nền tảng phía bên dưới.

Bước 1: Chuẩn bị tài nguyên

Trước khi triển khai, bạn cần lựa chọn cấu hình phù hợp:

Mô hình: DeepSeek V4-Flash
Loại GPU: H20-141G (MU1) hoặc H20-141G+ (MU2)
Số lượng đơn vị: Đối với các khối lượng công việc trong môi trường thực tế, thường sử dụng từ 4 đến 16 đơn vị MU, tùy vào thông lượng mục tiêu
Khu vực: Singapore (SGP) là khu vực quốc tế chính dành cho MU

Trong hướng dẫn này, chúng ta sẽ triển khai với cấu hình gồm 4 đơn vị MU1 trên GPU H20-141G tại khu vực Singapore.

Bước 2: Tạo dịch vụ PAI-EAS

console_pai_eas

Truy cập bảng điều khiển PAI và chọn EAS trong menu bên trái.

Nhấp vào Create Service. Bạn sẽ thấy trình hướng dẫn triển khai.

console_deployment_wizard

Tên dịch vụ: deepseek-v4-flash-prod

Nguồn mô hình: Chọn "Custom Model" và chọn tệp mô hình DeepSeek V4-Flash. Nếu mô hình đã có trong kho đăng ký mô hình của Alibaba Cloud, bạn có thể chọn trực tiếp. Nếu không, hãy cung cấp đường dẫn OSS đến trọng số mô hình của bạn.

console_resource_config

Cấu hình tài nguyên:

Loại phiên bản: H20-141G (MU1)
Số lượng phiên bản: 4
Chính sách mở rộng quy mô: Thủ công (đối với khối lượng công việc có thể dự đoán được) hoặc Tự động (đối với lưu lượng truy cập thay đổi)

Cấu hình khuôn khổ:

Công cụ suy luận: Tongyi-native với cơ chế tách biệt P/D
Lượng tử hóa: FP8 (mặc định) hoặc INT4 để đạt thông lượng cao hơn
Bộ nhớ đệm KV: Được bật với tỷ lệ bộ nhớ đệm mặc định là 70%
Số lượng token đầu vào tối đa: 32.768 token
Số lượng token đầu ra tối đa: 8.192 token

Bước 3: Cấu hình mạng và quyền truy cập

console_network_config

Thiết lập VPC và vSwitch của bạn. Đối với các API cần truy cập từ Internet, hãy bật điểm cuối công khai. Đối với dịch vụ nội bộ, hãy sử dụng điểm cuối riêng tư trong VPC của bạn.

Bật xác thực bằng khóa API. Tạo khóa API riêng cho dịch vụ.

Bước 4: Triển khai

console_deploying

Nhấp vào Deploy. Quy trình cấp phát tài nguyên sẽ mất khoảng 5–10 phút. Trong thời gian đó, PAI-EAS sẽ phân bổ tài nguyên GPU chuyên dụng cho bạn và tải trọng số mô hình vào bộ nhớ.

console_running

Bạn sẽ thấy trạng thái của dịch vụ lần lượt chuyển từ "Creating" → "Deploying" → "Running".

Bước 5: Xác minh việc triển khai

Sau khi dịch vụ chạy, hãy ghi lại URL điểm cuối. Trông như thế này:

https://deepseek-v4-flash-prod.123456.ap-southeast-1.pai-eas.aliyuncs.com

terminal_api_test

Hãy thử bằng một yêu cầu curl như sau:

curl -X POST https://deepseek-v4-flash-prod.123456.ap-southeast-1.pai-eas.aliyuncs.com/v1/chat/completions \
  -H "Authorization: Bearer YOUR_SERVICE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-flash",
    "messages": [
      {"role": "user", "content": "What are the key benefits of dedicated GPU inference?"}
    ],
    "max_tokens": 512
  }'

Nếu bạn nhận được phản hồi rõ ràng, nghĩa là hệ thống Model Unit bạn triển khai đã hoạt động và đang phục vụ lưu lượng truy cập.

Bạn cũng có thể thử trực tiếp từ bảng điều khiển PAI-EAS. Mỗi dịch vụ sau khi triển khai đều đi kèm một Playground tích hợp sẵn, cho phép bạn gửi câu lệnh, điều chỉnh các tham số (temperature, top-p, số lượng token tối đa) và xem phản hồi theo thời gian thực dưới dạng truyền tải mà không cần viết bất kỳ dòng mã nào.

console_playground_pai_eas

Đây là công cụ hữu ích để kiểm tra nhanh, phân tích hành vi của câu lệnh hoặc minh họa hoạt động triển khai cho các bên liên quan trước khi tích hợp vào ứng dụng của bạn.

Phần 6: Thiết lập điểm chuẩn

Giờ mới là phần thú vị. Chúng ta sẽ đánh giá cả bốn phương án triển khai với cùng một khối lượng công việc và so sánh kết quả.

Cấu hình điểm chuẩn

Chúng tôi sử dụng một tập lệnh điểm chuẩn chuẩn hóa để đo lường:

TTFT (Time To First Token): Thời gian từ khi gửi yêu cầu đến khi nhận được token đầu tiên của phản hồi
TPOT (Time Per Output Token): Thời gian giữa hai token đầu ra liên tiếp
TPS (Tokens Per Second): Tổng số token đầu ra chia cho tổng thời gian tạo
TPM (Tokens Per Minute): Tốc độ thông lượng trung bình trong khoảng thời gian đánh giá
Phân bố độ trễ: P50, P95, P99

Khối lượng công việc kiểm thử:

Câu lệnh đầu vào: 2.048 token (mô phỏng ngữ cảnh dài với lịch sử hội thoại)
Đầu ra dự kiến: 1.024 token
Các mức độ đồng thời được kiểm thử: 1, 4, 8, 16, 32 và 64 yêu cầu đồng thời
Thời lượng: 5 phút mỗi mức độ đồng thời
Khởi động: 60 giây trước khi bắt đầu đo lường

Kịch bản điểm chuẩn

Dưới đây là tập lệnh điểm chuẩn mà chúng tôi đã sử dụng. Bạn có thể tùy chỉnh cho nhu cầu kiểm thử của mình:

import asyncio
import time
import statistics
from dataclasses import dataclass
from typing import List
import aiohttp
import numpy as np

@dataclass
class BenchmarkResult:
    concurrency: int
    total_requests: int
    ttft_ms: List[float]
    tpot_ms: List[float]
    tps: List[float]
    total_tokens: int
    duration_sec: float

    @property
    def avg_ttft(self) -> float:
        return statistics.mean(self.ttft_ms)

    @property
    def p99_ttft(self) -> float:
        return np.percentile(self.ttft_ms, 99)

    @property
    def avg_tps(self) -> float:
        return statistics.mean(self.tps)

    @property
    def avg_tpot(self) -> float:
        return statistics.mean(self.tpot_ms)

    @property
    def throughput_tpm(self) -> float:
        return (self.total_tokens / self.duration_sec) * 60


async def send_request(session, endpoint, api_key, prompt, max_tokens):
    headers = {
        "Authorization": f"Bearer {api_key}",
        "Content-Type": "application/json"
    }
    payload = {
        "model": "deepseek-v4-flash",
        "messages": [{"role": "user", "content": prompt}],
        "max_tokens": max_tokens,
        "stream": True
    }

    start_time = time.time()
    first_token_time = None
    token_count = 0
    last_token_time = start_time

    async with session.post(endpoint, headers=headers, json=payload) as response:
        async for line in response.content:
            line = line.decode('utf-8').strip()
            if line.startswith('data: '):
                chunk = line[6:]
                if chunk == '[DONE]':
                    break
                # Phân tích từng khối dữ liệu SSE và đếm số lượng token
                token_count += 1
                if first_token_time is None:
                    first_token_time = time.time()
                last_token_time = time.time()

    end_time = time.time()

    ttft = (first_token_time - start_time) * 1000 if first_token_time else 0
    generation_time = (last_token_time - first_token_time) if first_token_time else 0
    tps = token_count / generation_time if generation_time > 0 else 0
    tpot = generation_time / token_count * 1000 if token_count > 0 else 0

    return ttft, tpot, tps, token_count


async def run_benchmark(endpoint, api_key, concurrency, duration_sec=300):
    # Câu lệnh ngữ cảnh dài (~2.048 token)
    prompt = "Explain the history of artificial intelligence..." * 50
    max_tokens = 1024

    results = []
    start_time = time.time()
    request_count = 0

    async with aiohttp.ClientSession() as session:
        while time.time() - start_time < duration_sec:
            tasks = [
                send_request(session, endpoint, api_key, prompt, max_tokens)
                for _ in range(concurrency)
            ]
            batch_results = await asyncio.gather(*tasks, return_exceptions=True)

            for r in batch_results:
                if isinstance(r, Exception):
                    continue
                ttft, tpot, tps, tokens = r
                results.append((ttft, tpot, tps, tokens))
                request_count += 1

    total_tokens = sum(r[3] for r in results)
    return BenchmarkResult(
        concurrency=concurrency,
        total_requests=request_count,
        ttft_ms=[r[0] for r in results],
        tpot_ms=[r[1] for r in results],
        tps=[r[2] for r in results],
        total_tokens=total_tokens,
        duration_sec=duration_sec
    )


# Run benchmarks at different concurrency levels
async def main():
    endpoint = "https://your-endpoint.aliyuncs.com/v1/chat/completions"
    api_key = "your-api-key"

    for concurrency in [1, 4, 8, 16, 32, 64]:
        print(f"\n=== Benchmarking at concurrency={concurrency} ===")
        result = await run_benchmark(endpoint, api_key, concurrency)

        print(f"Total requests: {result.total_requests}")
        print(f"Throughput: {result.throughput_tpm:.0f} TPM")
        print(f"Avg TTFT: {result.avg_ttft:.1f}ms")
        print(f"P99 TTFT: {result.p99_ttft:.1f}ms")
        print(f"Avg TPS: {result.avg_tps:.1f} tok/s")
        print(f"Avg TPOT: {result.avg_tpot:.1f}ms")


if __name__ == "__main__":
    asyncio.run(main())

terminal_benchmark

Lưu ý: Tập lệnh này sử dụng chế độ truyền phát để đo chính xác TTFT và độ trễ của từng token. Đối với các điểm cuối không hỗ trợ truyền phát, bạn sẽ cần điều chỉnh logic đo lường.

Phần 7: Kết quả — Mô hình thực sự dẫn đầu

Chúng tôi đã chạy điểm chuẩn đánh giá cho cả bốn phương án triển khai. Dưới đây là kết quả.

benchmark_token_api

Kết quả về Token API

Đồng thời	TTFT trung bình	P99 TTFT	TPS trung bình	Thông lượng (TPM)
1	245 ms	890 ms	42,3	2.540
4	312 ms	1.240 ms	38,7	9.280
8	485 ms	2.100 ms	31,2	14.960
16	920 ms	4.500 ms	18,5	17.760
32	1.850 ms	8.200 ms	9,8	18.816

Kết quả quan sát được: Ở mức độ đồng thời thấp, Token API có tốc độ khá tốt. Tuy nhiên, khi mức độ đồng thời tăng lên, độ trễ tăng đáng kể. Nhóm tài nguyên dùng chung không thể duy trì thông lượng cao mà không xảy ra tình trạng xếp hàng. Thông lượng đạt trạng thái bão hòa ở mức khoảng 18K TPM.

benchmark_ptu

Kết quả về PTU

Đồng thời	TTFT trung bình	P99 TTFT	TPS trung bình	Thông lượng (TPM)
1	180 ms	420 ms	48,5	2.910
4	195 ms	380 ms	46,2	11.090
8	210 ms	450 ms	44,8	21.500
16	245 ms	520 ms	41,3	39.600
32	310 ms	680 ms	36,7	70.300

Kết quả quan sát được: PTU duy trì độ trễ ổn định hơn nhiều. Công suất được đảm bảo giúp tránh các phát sinh tình trạng xếp hàng ngoài dự kiến. Thông lượng tăng gần như tuyến tính cho đến khi đạt giới hạn của mức dành riêng. P99 TTFT vẫn duy trì dưới 700 ms ngay cả khi có 32 yêu cầu đồng thời.

benchmark_model_unit

Kết quả về Model Unit (4x MU1)

Đồng thời	TTFT trung bình	P99 TTFT	TPS trung bình	Thông lượng (TPM)
1	95 ms	180 ms	95,2	5.710
4	102 ms	195 ms	94,8	22.750
8	118 ms	225 ms	93,5	44.880
16	145 ms	280 ms	91,2	87.550
32	195 ms	380 ms	87,6	168.200
64	310 ms	620 ms	79,3	304.100

Kết quả quan sát được: Model Unit vượt trội ở mọi số liệu. TTFT nhanh hơn 3 lần so với Token API ở mức tải đồng thời cao. TPS vẫn duy trì ổn định ngay cả khi hệ thống chịu tải nặng. Thông lượng đỉnh đạt 304K TPM, cao gấp 16 lần khả năng mà Token API có thể cung cấp. Và cần lưu ý rằng đây là hiệu năng đi kèm SLA được đảm bảo, không phải theo cơ chế hết sức có thể.

benchmark_bare_metal

Kết quả về Bare Metal (8x H200, SGLang)

Đồng thời	TTFT trung bình	P99 TTFT	TPS trung bình	Thông lượng (TPM)
1	85 ms	160 ms	105	6.300
4	92 ms	175 ms	102,5	24.600
8	105 ms	200 ms	98,3	47.200
16	130 ms	250 ms	92,1	88.300
32	180 ms	340 ms	82,5	158.400

Kết quả quan sát được: Ở mức tải đồng thời thấp, Bare Metal nhỉnh hơn Model Unit nhờ khả năng truy cập trực tiếp vào GPU và tinh chỉnh tùy chỉnh. Tuy nhiên, mức chênh lệch này khá nhỏ (chỉ khoảng 10–15%). Trong khi đó, chi phí vận hành lại lớn hơn rất nhiều.

cost_performance_summary

Tóm tắt chi phí và hiệu năng

Triển khai	Chi phí hàng tháng*	TPM cao nhất	Độ trễ trung bình (P50)	Chi phí tương đối mỗi 1 triệu token
Token API	Thay đổi (tăng theo tuyến tính)	~19K	1.850 ms	1 lần (cơ bản)
PTU	~1,5 lần Model Unit	~70K	310 ms	~2 lần Token API
Model Unit (4x MU1)	Cố định (tầm trung)	~304K	195 ms	~0,3 lần Token API
Bare Metal (8x H200)	Tương tự như Model Unit	~158K	180 ms	~0,3 lần Token API

*Dựa trên mức tải duy trì 500 triệu token/ngày, chưa bao gồm chi phí nhân sự đối với Bare Metal. Tất cả chi phí đều là ước tính dựa trên các nguồn công khai.

Điểm đáng chú ý nhất: Model Unit cung cấp thông lượng cao gấp 16 lần Token API với chi phí mỗi token chỉ bằng một phần ba, đồng thời đạt độ trễ tốt hơn một độ lớn. Model Unit không chỉ rẻ hơn. Ở quy mô vận hành thực tế, Model Unit còn vượt trội ở mọi chỉ số có thể đo lường được.

Phần 8: Khuôn khổ quyết định — Đâu là lựa chọn phù hợp với bạn?

decision_flowchart

Sau khi đánh giá cả bốn phương án bằng cùng một bộ điểm chuẩn, đây là cây quyết định mà chúng tôi ước mình đã có ngay từ đầu.

Chọn Token API nếu:

Bạn đang ở giai đoạn tạo mẫu hoặc thử nghiệm ý tưởng.
Lượng token sử dụng mỗi ngày của bạn dưới 1 tỷ token
Lưu lượng truy cập rất khó dự đoán (tăng đột biến hoặc mang tính thời vụ)
Bạn hoàn toàn không muốn tự quản lý cơ sở hạ tầng
Yêu cầu về độ trễ ở mức hết sức có thể, không cần được đảm bảo

Chọn PTU nếu:

Lưu lượng truy cập của bạn có thể dự đoán được (người dùng hoạt động hàng ngày với các mô hình sử dụng ổn định)
Bạn cần công suất được đảm bảo trong những khoảng thời gian cụ thể (chiến dịch, ra mắt)
Lượng token sử dụng mỗi ngày của bạn dao động từ 1 đến 5 tỷ token
Bạn cần độ trễ thấp hơn so với Token API, nhưng chưa muốn triển khai cơ sở hạ tầng riêng
Khối lượng công việc của bạn nằm gọn trong một gói PTU và không thường xuyên vượt quá giới hạn

Chọn Model Unit nếu:

Lượng token sử dụng mỗi ngày của bạn lớn hơn 2–3 tỷ token
Bạn chạy tác vụ suy luận hơn 8 giờ mỗi ngày
Bạn cần SLA về độ trễ được đảm bảo (P99 TTFT < 500 ms)
Bạn đang triển khai các mô hình tùy chỉnh hoặc tinh chỉnh
Cô lập dữ liệu và tuân thủ quy định là yêu cầu bắt buộc (tài chính, y tế, pháp lý)
Bạn muốn đạt tỷ lệ chi phí và hiệu năng tối ưu khi vận hành ở quy mô lớn

Chọn GPU Bare Metal nếu:

Bạn có một đội ngũ chuyên trách vận hành GPU (từ 2 kỹ sư trở lên)
Trường hợp sử dụng của bạn liên quan đến nghiên cứu, đào tạo hoặc tối ưu hóa ở mức độ cao
Bạn cần TTFT dưới 100 ms và sẵn sàng tự tinh chỉnh các CUDA kernel
Khối lượng công việc của bạn có những yêu cầu đặc thù (lượng tử hóa tùy chỉnh, kiến trúc mô hình không phổ biến)
Bạn đang tối ưu hóa cho một cấu hình phần cứng cụ thể

Lựa chọn của Sarah (và lý do bạn nên cân nhắc làm theo)

Giờ hãy trở lại câu chuyện về công ty khởi nghiệp về công nghệ tài chính của Sarah.

Sau khi xem các kết quả đánh giá, cô ấy đã biết mình nên chọn phương án nào.

Token API rất phù hợp cho giai đoạn nguyên mẫu, nhưng ở quy mô dự kiến của họ thì chi phí hàng tháng sẽ cao hơn khoảng 2 lần so với Model Unit. PTU là phương án dung hòa khá tốt, với chi phí vào khoảng 60–70% Token API. Tuy nhiên, tốc độ tăng trưởng của họ sẽ khiến mức công suất dành riêng không còn đủ dùng chỉ sau khoảng một quý. Phương án Bare Metal bị loại bỏ ngay từ đầu — cả đội ngũ của cô chỉ có 12 kỹ sư, và không ai muốn phải trực xử lý sự cố cho cụm GPU lúc 3 giờ sáng.

Họ đã chọn Model Unit. Họ triển khai 4 đơn vị MU1 trên PAI-EAS, sử dụng DeepSeek V4-Flash kết hợp với một checkpoint tinh chỉnh tùy chỉnh theo ngành mà họ hoạt động.

Kết quả sau một tháng vận hành trong môi trường thực tế:

Chi phí: Tiết kiệm khoảng 50% so với việc sử dụng Token API ở quy mô tương đương
Độ trễ: P99 TTFT giảm từ 4,2 giây xuống còn 280 ms — cải thiện 93%
Thông lượng: Công suất đỉnh tăng từ khoảng 19K TPM lên khoảng 304K TPM — dư địa mở rộng cao gấp 16 lần
Chi phí vận hành của đội ngũ: Bằng 0. Đội ngũ cơ sở hạ tầng không cần tuyển thêm bất kỳ nhân sự nào.
Tuân thủ: Tất cả dữ liệu khách hàng được lưu trữ trong cụm chuyên dụng của họ. Các kiểm toán viên đều hài lòng.

Bài học rút ra là gì? Đừng chỉ đánh giá chỉ dựa trên giá dịch vụ ban đầu. Hãy tính đến tổng chi phí sở hữu thực sự, bao gồm chi phí nhân sự vận hành, chi phí cơ hội và nguy cơ hiệu năng suy giảm dưới tải cao. Khi cộng tất cả các yếu tố này lại, Model Unit không chỉ là phương án tiết kiệm nhất ở quy mô lớn, mà còn là lựa chọn duy nhất có thể đồng thời đáp ứng ba yếu tố: hiệu năng, khả năng dự báo và sự an tâm.

Bắt đầu

Bạn đã sẵn sàng triển khai phiên bản DeepSeek V4-Flash riêng của mình chưa? Dưới đây là những tài nguyên bạn cần:

Model Studio của Alibaba Cloud — Bắt đầu với Token API để tạo mẫu nhanh chóng
Tài liệu về PAI-EAS — Hướng dẫn đầy đủ về cách triển khai các mô hình tùy chỉnh trên cơ sở hạ tầng được quản lý
Tài liệu tham khảo về API cho Model Studio của Alibaba Cloud — Hướng dẫn tích hợp API và tài liệu về SDK
DeepSeek V4-Flash trên Model Studio — Các mô hình hiện có và thông tin chi tiết về giá
Dùng thử miễn phí Alibaba Cloud — Bắt đầu với khoản tín dụng đám mây miễn phí
Công cụ tính giá của Alibaba Cloud — Ước tính chi phí cho khối lượng công việc cụ thể của bạn
Báo cáo kỹ thuật về DeepSeek-V3 — Chi tiết kiến trúc, phương pháp đào tạo và kết quả đánh giá của dòng mô hình DeepSeek

Công bố đầy đủ và các lưu ý quan trọng

Đánh giá này được thực hiện trong một môi trường có kiểm soát, sử dụng các khối lượng công việc mô phỏng. Kết quả thực tế của bạn có thể sẽ khác tùy vào:

Phân bố token đầu vào và đầu ra (đầu vào dài so với đầu ra dài)
Tỷ lệ truy cập bộ nhớ đệm (những câu lệnh được lặp lại nhiều lần có thể tận dụng bộ nhớ đệm KV để tăng hiệu quả đáng kể)
Độ trễ mạng giữa ứng dụng của bạn và điểm cuối suy luận
Cấu hình lượng tử hóa mô hình (FP8 so với INT4 so với FP16)
Phiên bản mô hình cụ thể và các hạng mục tối ưu hóa của công cụ suy luận

Các số liệu về giá chỉ là ước tính dựa trên những nguồn thông tin công khai tại thời điểm viết bài. Chương trình chiết khấu theo số lượng, chênh lệch giá theo khu vực và giá khuyến mãi có thể sẽ được áp dụng. Hãy luôn kiểm tra lại các mức chi phí với quản lý tài khoản Alibaba Cloud của bạn trước khi đưa ra bất kỳ cam kết nào.

Bạn có câu hỏi về việc triển khai DeepSeek V4-Flash trên Alibaba Cloud? Đội ngũ AI Infra SA tổ chức các buổi đánh giá hàng tuần. Hãy liên hệ thông qua Biểu mẫu yêu cầu MU được liên kết bên trên.

Bài viết này ban đầu được viết bằng tiếng Anh. Xem bài viết gốc tại đây.