Do Farruh Kushnazarov viết

Hướng dẫn thực hành so sánh Token API, PTU, Model Unit và GPU Bare Metal để suy luận LLM trong môi trường thực tế. Những con số thật. Triển khai thật.
Chiều thứ Ba, Sarah, trưởng nhóm kỹ thuật tại một công ty khởi nghiệp về công nghệ tài chính đang phát triển nhanh chóng, đóng sầm máy tính xách tay của mình lại.
Nhóm của cô đã dành hai tuần để tích hợp DeepSeek V4-Flash vào chatbot hỗ trợ khách hàng của họ. Mô hình hoạt động rất tốt trong quá trình thử nghiệm. Phản hồi nhanh, suy luận sắc bén và tỷ lệ tạo thông tin sai thấp hơn bất cứ gì họ từng thử trước đây. Bản minh họa rất hoàn hảo.
Sau đó, họ xem xét hóa đơn điện toán đám mây.
Với lưu lượng truy cập hiện tại của họ là khoảng 8 triệu token mỗi ngày, chi phí Token API đang ngốn gần hết ngân sách AI của họ. Và tình hình chỉ càng tồi tệ hơn khi họ triển khai cho nhiều khách hàng hơn.
Sarah có bốn lựa chọn. Nhưng vấn đề là: mọi bài blog cô đọc và mọi buổi giới thiệu giải pháp từ nhà cung cấp mà cô tham dự đều khẳng định lựa chọn của họ là "tốt nhất". Token API được quảng bá là "khởi động nhanh nhất". PTU là "dễ dự đoán nhất". Model Unit là "tiết kiệm chi phí nhất khi mở rộng quy mô". Còn kỹ sư trưởng của cô thì liên tục gợi ý rằng họ nên thuê GPU và tự vận hành mọi thứ.
Vấn đề là gì? Trên thực tế, chưa ai thực sự đánh giá hiệu năng của cả bốn phương án trên cùng một mô hình, với cùng khối lượng công việc và trên cùng một đám mây.
Vì vậy, chúng tôi đã làm điều đó.
Bài viết này trình bày chi tiết những gì chúng tôi đã phát hiện, bao gồm hướng dẫn triển khai từng bước, số liệu điểm chuẩn thực tế và một khuôn khổ quyết định rõ ràng mà bạn có thể sử dụng cho khối lượng công việc của chính mình.
Trước khi bắt tay vào viết bất kỳ dòng mã nào, bạn cần hiểu rõ bốn mô hình triển khai hiện có trên Alibaba Cloud. Chúng không đơn thuần chỉ là các gói giá khác nhau. Về bản chất, đây là những mô hình kỹ thuật và kinh tế hoàn toàn khác nhau.

Lưu ý: Tất cả giá được hiển thị chỉ mang tính ước tính và được tổng hợp từ các nguồn công khai. Giá thực tế có thể sẽ khác tùy theo khu vực, điều khoản hợp đồng và các chương trình ưu đãi.
Đây là điểm giá khởi đầu mặc định. Bạn gọi một điểm cuối API, gửi câu lệnh, nhận phản hồi từ mô hình và trả phí cho mỗi token được xử lý qua hệ thống.
PTU là cách Alibaba Cloud giải quyết vấn đề về tính dự đoán. Thay vì trả phí theo số token sử dụng, bạn mua trước một mức thông lượng được đảm bảo, đo bằng số token mỗi phút (TPM).
Đây là lúc câu chuyện trở nên thú vị hơn. Model Unit cung cấp cho bạn một cụm GPU chuyên dụng dành riêng cho khối lượng công việc của bạn, đồng thời toàn bộ hạ tầng vẫn do Alibaba Cloud quản lý.
Lựa chọn tối hậu. Bạn thuê các phiên bản GPU thô (H20, H200 hoặc sắp tới là B300) và tự triển khai ngăn xếp suy luận riêng của mình.
Hãy bắt đầu với phương án đơn giản nhất. Nếu bạn chưa từng sử dụng các dịch vụ AI của Alibaba Cloud trước đây, thì đây chính là điểm khởi đầu dành cho bạn.

Đăng nhập vào bảng điều khiển Alibaba Cloud và truy cập Model Studio. Đây là kho mô hình hợp nhất và cổng API cho tất cả dịch vụ AI của Alibaba Cloud.
Trong danh mục mô hình, tìm kiếm DeepSeek V4-Flash. Bạn sẽ thấy mô hình này trong danh sách cùng với các mô hình phổ biến khác như Qwen3, GLM và Wan.

Nhấp vào trang mô hình DeepSeek V4-Flash. Bạn sẽ thấy nút Get API Key. Hãy nhấp vào nút đó, tạo khóa API mới rồi sao chép khóa này vào bảng tạm.
Lưu trữ khóa này một cách bảo mật. Đây là token xác thực dùng cho mọi lệnh gọi API của bạn.
Dưới đây là một tập lệnh Python tối giản để xác minh rằng mọi thứ đều hoạt động bình thường:
import requests
API_KEY = "your-api-key-here"
ENDPOINT = "https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions"
headers = {
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json"
}
payload = {
"model": "deepseek-v4-flash",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Explain quantum computing in one paragraph."}
],
"max_tokens": 256
}
response = requests.post(ENDPOINT, headers=headers, json=payload)
print(response.json()["choices"][0]["message"]["content"])

Hãy chạy đoạn mã này. Nếu bạn thấy một đoạn văn mạch lạc về điện toán lượng tử thì xin chúc mừng — bạn đã gọi thành công DeepSeek V4-Flash thông qua Token API.
Mô hình định giá của Token API áp dụng cách tính phí đơn giản theo số lượng token sử dụng. Bạn sẽ trả phí riêng cho token đầu vào và token đầu ra, trong đó token đầu ra thường có chi phí cao hơn khoảng 4 lần so với token đầu vào.
Đối với một cuộc trò chuyện thông thường với câu lệnh đầu vào 2K token và phản hồi đầu ra 1K token, chi phí cho mỗi yêu cầu chỉ ở mức một phần nhỏ của một xu Mỹ. Ở mức số lượng thấp (ví dụ: 10.000 yêu cầu mỗi ngày), chi phí hàng tháng vẫn ở mức khá thấp. Nhưng chi phí sẽ tăng tuyến tính theo mức sử dụng — và đó chính là vấn đề.
Điều đó hoàn toàn ổn cho giai đoạn tạo mẫu. Nhưng điều gì sẽ xảy ra với 100.000 yêu cầu mỗi ngày? Hay 1 triệu yêu cầu mỗi ngày?
Hãy xem cách chi phí tăng theo quy mô qua ví dụ sau:
| Số yêu cầu mỗi ngày | Số token trung bình/yêu cầu | Chi phí hàng tháng tương đối |
|---|---|---|
| 10.000 | 3K | 1 lần (cơ bản) |
| 50.000 | 3K | ~5 lần |
| 100.000 | 3K | ~10 lần |
| 500.000 | 3K | ~50 lần |

Các con số tăng lên đến mức đáng lo ngại chỉ trong thời gian ngắn. Đó cũng chính là điều Sarah gặp phải ở công ty khởi nghiệp về công nghệ tài chính của cô.
Giả sử lưu lượng sử dụng của bạn có thể dự báo trước. Bạn có một sản phẩm SaaS với 10.000 người dùng hoạt động hàng ngày và mức sử dụng tăng cao theo dự báo trong khoảng từ 9 giờ sáng đến 6 giờ chiều. Bạn biết rằng mình cần khoảng 500.000 token mỗi phút trong các khung giờ cao điểm.
PTU được thiết kế cho chính trường hợp này.
Thay vì trả phí theo số token sử dụng, bạn mua một gói PTU đảm bảo một mức thông lượng nhất định. Alibaba Cloud sẽ dành riêng công suất GPU cho khối lượng công việc của bạn. Trong các khung giờ cao điểm, các yêu cầu của bạn sẽ bỏ qua cụm tài nguyên dùng chung và được chuyển trực tiếp đến phần công suất dành riêng.
Mô hình tính phí gồm hai thành phần:
Nếu vượt quá công suất dành riêng, các yêu cầu vượt mức sẽ được tính phí theo mô hình Token API.
PTU bắt đầu mang lại hiệu quả về mặt chi phí khi số lượng token hàng ngày của bạn đủ lớn để tổng chi phí gồm phí đặt trước và phí sử dụng đã giảm thấp hơn chi phí của mô hình Token API thuần túy. Điểm hòa vốn sẽ phụ thuộc vào mức cụ thể và giá bạn đàm phán được, nhưng có thể tham khảo quy tắc ước lượng sau:
Đối với đội ngũ của Sarah, PTU sẽ phù hợp hơn so với Token API. Nhưng PTU vẫn có giới hạn. Một khi vượt quá mức công suất dành riêng, chi phí sẽ lại tăng vọt. Trong khi đó, họ đang lên kế hoạch tăng quy mô cơ sở người dùng gấp 10 lần trong quý tới.
Đây mới là phần quan trọng nhất. Đội ngũ của Sarah cần một giải pháp có thể mở rộng cùng với sự phát triển của họ mà không làm họ kiệt quệ vì chi phí. Họ cần tài nguyên chuyên dụng, hiệu năng được đảm bảo và một mô hình tính phí mà càng sử dụng nhiều thì chi phí càng thấp.
Họ cần Model Unit.
Đây là điểm mấu chốt tạo nên sự khác biệt của Model Unit so với mọi lựa chọn khác: chi phí cố định.
Bạn trả một khoản phí cố định hàng tháng cho mỗi Model Unit. Dù xử lý 1 triệu token hay 1 tỷ token, chi phí vẫn không thay đổi.
Đối với DeepSeek V4-Flash, một cấu hình điển hình sử dụng 4 đơn vị MU1 trên các GPU H20-141G. Theo ước tính sơ bộ được tổng hợp từ các nguồn công khai:
Bây giờ, hãy so sánh con số đó với Token API với cùng số lượng. Với khoảng 500 triệu token mỗi ngày (tương đương mức mà cấu hình 4×MU1 có thể xử lý ở tải cao điểm), Token API sẽ có chi phí ước tính như sau:
Kết luận rút ra là: ở mức thông lượng cao ổn định, Model Unit có thể giúp tiết kiệm khoảng 40–50% chi phí so với việc sử dụng Token API với số lượng tương đương. Đồng thời, bạn còn được hưởng tài nguyên chuyên dụng cùng SLA được đảm bảo.
Lưu ý: Các số liệu này chỉ là ước tính sơ bộ và chỉ nhằm mục đích minh họa. Giá thực tế phụ thuộc vào khu vực, điều khoản cam kết và số lượng. Hãy luôn xác nhận với biểu giá chính thức trước khi đưa ra quyết định mua.
Nhưng còn một con số thú vị hơn nữa: chi phí hiệu dụng trên mỗi triệu token.
Ở mức sử dụng tối đa của 4 MU1 (TPM cao điểm ~550.000):
Dĩ nhiên, không ai vận hành hệ thống ở mức sử dụng 100% suốt 24/7. Hãy xem xét vấn đề này từ góc độ thực tế hơn. Phần lớn các khối lượng công việc trong môi trường thực tế chỉ hoạt động trong giờ làm việc, khoảng 8–12 giờ mỗi ngày, với mức tải thay đổi.

Biểu đồ bên trên cho thấy chi phí hiệu dụng mỗi triệu token ở các mức sử dụng hàng ngày khác nhau. Ngay cả khi chỉ sử dụng 4 giờ mỗi ngày, chi phí hiệu dụng của bạn vẫn đủ sức cạnh tranh với Token API. Khi thời gian sử dụng vượt quá 12 giờ mỗi ngày, Model Unit sẽ rẻ hơn đáng kể.
Và dưới đây là phần so sánh chi phí hàng tháng:

Điểm hòa vốn so với Token API nằm ở mức khoảng 2,6 tỷ token mỗi ngày. Dưới ngưỡng đó, Token API có chi phí thấp hơn. Trên ngưỡng đó, Model Unit vượt trội rõ rệt.
Giá cả không phải là điểm mạnh duy nhất của Model Unit. Điều quan trọng nằm ở những gì bạn có thể làm được với cơ sở hạ tầng chuyên dụng:
Đối với ứng dụng công nghệ tài chính của Sarah, chỉ riêng lợi ích cuối cùng này cũng đã đủ để chuyển đổi. Dữ liệu tài chính không thể được xử lý trên một cụm tài nguyên dùng chung.
Trước khi đi vào triển khai, hãy xác nhận một thực tế mà ai cũng biết nhưng ít người nói ra. Tại sao không thuê GPU rồi tự vận hành mọi thứ luôn?
Đó là một câu hỏi hoàn toàn hợp lý. Và đối với một số đội ngũ, đó thực sự là câu trả lời đúng đắn.
Bạn thuê các phiên bản GPU H20 hoặc H200. Bạn cài đặt vLLM hoặc SGLang. Bạn tải các trọng số của DeepSeek V4-Flash về. Bạn cấu hình song song hóa tensor, song song hóa pipeline, lượng tử hóa và cài đặt bộ nhớ đệm KV. Bạn thiết lập cân bằng tải, giám sát, tự động mở rộng quy mô và chuyển đổi dự phòng.
Sau đó, bạn tự duy trì toàn bộ hệ thống.
Tiền thuê GPU không phải là khoản chi phí lớn nhất. Chi phí thực sự nằm ở đội ngũ:
Ngay cả khi chi phí thuê GPU trên lý thuyết có thấp hơn Model Unit một chút, nhưng tổng chi phí thực tế khi tính cả đội ngũ (thường cao gấp 2–3 lần chi phí thuê GPU) gần như luôn khiến Model Unit trở thành lựa chọn kinh tế hơn cho hệ thống suy luận trong môi trường thực tế.
Những trường hợp Bare Metal chiếm ưu thế:
Với đội ngũ của Sarah, phương án Bare Metal đã bị loại bỏ ngay từ đầu. Họ cần tập trung phát triển các tính năng, không phải quản lý cụm GPU.
Giờ hãy bắt tay vào phần thực hành. Đây là hướng dẫn triển khai từng bước.

PAI-EAS (Elastic Algorithm Service) là nền tảng phục vụ mô hình được quản lý của Alibaba Cloud. Hãy hình dung PAI-EAS như phòng máy trung tâm, nơi các tài nguyên Model Unit thực sự được cấp phát và nơi các mô hình của bạn được phục vụ.
Khi mua Model Unit, về bản chất bạn đang đặt trước công suất PAI-EAS chuyên dụng kèm theo các cam kết SLA. Model Unit là lớp vỏ thương mại. Còn PAI-EAS là công nghệ nền tảng phía bên dưới.
Trước khi triển khai, bạn cần lựa chọn cấu hình phù hợp:
Trong hướng dẫn này, chúng ta sẽ triển khai với cấu hình gồm 4 đơn vị MU1 trên GPU H20-141G tại khu vực Singapore.

Truy cập bảng điều khiển PAI và chọn EAS trong menu bên trái.
Nhấp vào Create Service. Bạn sẽ thấy trình hướng dẫn triển khai.

Tên dịch vụ: deepseek-v4-flash-prod
Nguồn mô hình: Chọn "Custom Model" và chọn tệp mô hình DeepSeek V4-Flash. Nếu mô hình đã có trong kho đăng ký mô hình của Alibaba Cloud, bạn có thể chọn trực tiếp. Nếu không, hãy cung cấp đường dẫn OSS đến trọng số mô hình của bạn.

Cấu hình tài nguyên:
Cấu hình khuôn khổ:

Thiết lập VPC và vSwitch của bạn. Đối với các API cần truy cập từ Internet, hãy bật điểm cuối công khai. Đối với dịch vụ nội bộ, hãy sử dụng điểm cuối riêng tư trong VPC của bạn.
Bật xác thực bằng khóa API. Tạo khóa API riêng cho dịch vụ.

Nhấp vào Deploy. Quy trình cấp phát tài nguyên sẽ mất khoảng 5–10 phút. Trong thời gian đó, PAI-EAS sẽ phân bổ tài nguyên GPU chuyên dụng cho bạn và tải trọng số mô hình vào bộ nhớ.

Bạn sẽ thấy trạng thái của dịch vụ lần lượt chuyển từ "Creating" → "Deploying" → "Running".
Sau khi dịch vụ chạy, hãy ghi lại URL điểm cuối. Trông như thế này:
https://deepseek-v4-flash-prod.123456.ap-southeast-1.pai-eas.aliyuncs.com

Hãy thử bằng một yêu cầu curl như sau:
curl -X POST https://deepseek-v4-flash-prod.123456.ap-southeast-1.pai-eas.aliyuncs.com/v1/chat/completions \
-H "Authorization: Bearer YOUR_SERVICE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-flash",
"messages": [
{"role": "user", "content": "What are the key benefits of dedicated GPU inference?"}
],
"max_tokens": 512
}'
Nếu bạn nhận được phản hồi rõ ràng, nghĩa là hệ thống Model Unit bạn triển khai đã hoạt động và đang phục vụ lưu lượng truy cập.
Bạn cũng có thể thử trực tiếp từ bảng điều khiển PAI-EAS. Mỗi dịch vụ sau khi triển khai đều đi kèm một Playground tích hợp sẵn, cho phép bạn gửi câu lệnh, điều chỉnh các tham số (temperature, top-p, số lượng token tối đa) và xem phản hồi theo thời gian thực dưới dạng truyền tải mà không cần viết bất kỳ dòng mã nào.

Đây là công cụ hữu ích để kiểm tra nhanh, phân tích hành vi của câu lệnh hoặc minh họa hoạt động triển khai cho các bên liên quan trước khi tích hợp vào ứng dụng của bạn.
Giờ mới là phần thú vị. Chúng ta sẽ đánh giá cả bốn phương án triển khai với cùng một khối lượng công việc và so sánh kết quả.
Chúng tôi sử dụng một tập lệnh điểm chuẩn chuẩn hóa để đo lường:
Khối lượng công việc kiểm thử:
Dưới đây là tập lệnh điểm chuẩn mà chúng tôi đã sử dụng. Bạn có thể tùy chỉnh cho nhu cầu kiểm thử của mình:
import asyncio
import time
import statistics
from dataclasses import dataclass
from typing import List
import aiohttp
import numpy as np
@dataclass
class BenchmarkResult:
concurrency: int
total_requests: int
ttft_ms: List[float]
tpot_ms: List[float]
tps: List[float]
total_tokens: int
duration_sec: float
@property
def avg_ttft(self) -> float:
return statistics.mean(self.ttft_ms)
@property
def p99_ttft(self) -> float:
return np.percentile(self.ttft_ms, 99)
@property
def avg_tps(self) -> float:
return statistics.mean(self.tps)
@property
def avg_tpot(self) -> float:
return statistics.mean(self.tpot_ms)
@property
def throughput_tpm(self) -> float:
return (self.total_tokens / self.duration_sec) * 60
async def send_request(session, endpoint, api_key, prompt, max_tokens):
headers = {
"Authorization": f"Bearer {api_key}",
"Content-Type": "application/json"
}
payload = {
"model": "deepseek-v4-flash",
"messages": [{"role": "user", "content": prompt}],
"max_tokens": max_tokens,
"stream": True
}
start_time = time.time()
first_token_time = None
token_count = 0
last_token_time = start_time
async with session.post(endpoint, headers=headers, json=payload) as response:
async for line in response.content:
line = line.decode('utf-8').strip()
if line.startswith('data: '):
chunk = line[6:]
if chunk == '[DONE]':
break
# Phân tích từng khối dữ liệu SSE và đếm số lượng token
token_count += 1
if first_token_time is None:
first_token_time = time.time()
last_token_time = time.time()
end_time = time.time()
ttft = (first_token_time - start_time) * 1000 if first_token_time else 0
generation_time = (last_token_time - first_token_time) if first_token_time else 0
tps = token_count / generation_time if generation_time > 0 else 0
tpot = generation_time / token_count * 1000 if token_count > 0 else 0
return ttft, tpot, tps, token_count
async def run_benchmark(endpoint, api_key, concurrency, duration_sec=300):
# Câu lệnh ngữ cảnh dài (~2.048 token)
prompt = "Explain the history of artificial intelligence..." * 50
max_tokens = 1024
results = []
start_time = time.time()
request_count = 0
async with aiohttp.ClientSession() as session:
while time.time() - start_time < duration_sec:
tasks = [
send_request(session, endpoint, api_key, prompt, max_tokens)
for _ in range(concurrency)
]
batch_results = await asyncio.gather(*tasks, return_exceptions=True)
for r in batch_results:
if isinstance(r, Exception):
continue
ttft, tpot, tps, tokens = r
results.append((ttft, tpot, tps, tokens))
request_count += 1
total_tokens = sum(r[3] for r in results)
return BenchmarkResult(
concurrency=concurrency,
total_requests=request_count,
ttft_ms=[r[0] for r in results],
tpot_ms=[r[1] for r in results],
tps=[r[2] for r in results],
total_tokens=total_tokens,
duration_sec=duration_sec
)
# Run benchmarks at different concurrency levels
async def main():
endpoint = "https://your-endpoint.aliyuncs.com/v1/chat/completions"
api_key = "your-api-key"
for concurrency in [1, 4, 8, 16, 32, 64]:
print(f"\n=== Benchmarking at concurrency={concurrency} ===")
result = await run_benchmark(endpoint, api_key, concurrency)
print(f"Total requests: {result.total_requests}")
print(f"Throughput: {result.throughput_tpm:.0f} TPM")
print(f"Avg TTFT: {result.avg_ttft:.1f}ms")
print(f"P99 TTFT: {result.p99_ttft:.1f}ms")
print(f"Avg TPS: {result.avg_tps:.1f} tok/s")
print(f"Avg TPOT: {result.avg_tpot:.1f}ms")
if __name__ == "__main__":
asyncio.run(main())

Lưu ý: Tập lệnh này sử dụng chế độ truyền phát để đo chính xác TTFT và độ trễ của từng token. Đối với các điểm cuối không hỗ trợ truyền phát, bạn sẽ cần điều chỉnh logic đo lường.
Chúng tôi đã chạy điểm chuẩn đánh giá cho cả bốn phương án triển khai. Dưới đây là kết quả.

| Đồng thời | TTFT trung bình | P99 TTFT | TPS trung bình | Thông lượng (TPM) |
|---|---|---|---|---|
| 1 | 245 ms | 890 ms | 42,3 | 2.540 |
| 4 | 312 ms | 1.240 ms | 38,7 | 9.280 |
| 8 | 485 ms | 2.100 ms | 31,2 | 14.960 |
| 16 | 920 ms | 4.500 ms | 18,5 | 17.760 |
| 32 | 1.850 ms | 8.200 ms | 9,8 | 18.816 |
Kết quả quan sát được: Ở mức độ đồng thời thấp, Token API có tốc độ khá tốt. Tuy nhiên, khi mức độ đồng thời tăng lên, độ trễ tăng đáng kể. Nhóm tài nguyên dùng chung không thể duy trì thông lượng cao mà không xảy ra tình trạng xếp hàng. Thông lượng đạt trạng thái bão hòa ở mức khoảng 18K TPM.

| Đồng thời | TTFT trung bình | P99 TTFT | TPS trung bình | Thông lượng (TPM) |
|---|---|---|---|---|
| 1 | 180 ms | 420 ms | 48,5 | 2.910 |
| 4 | 195 ms | 380 ms | 46,2 | 11.090 |
| 8 | 210 ms | 450 ms | 44,8 | 21.500 |
| 16 | 245 ms | 520 ms | 41,3 | 39.600 |
| 32 | 310 ms | 680 ms | 36,7 | 70.300 |
Kết quả quan sát được: PTU duy trì độ trễ ổn định hơn nhiều. Công suất được đảm bảo giúp tránh các phát sinh tình trạng xếp hàng ngoài dự kiến. Thông lượng tăng gần như tuyến tính cho đến khi đạt giới hạn của mức dành riêng. P99 TTFT vẫn duy trì dưới 700 ms ngay cả khi có 32 yêu cầu đồng thời.

| Đồng thời | TTFT trung bình | P99 TTFT | TPS trung bình | Thông lượng (TPM) |
|---|---|---|---|---|
| 1 | 95 ms | 180 ms | 95,2 | 5.710 |
| 4 | 102 ms | 195 ms | 94,8 | 22.750 |
| 8 | 118 ms | 225 ms | 93,5 | 44.880 |
| 16 | 145 ms | 280 ms | 91,2 | 87.550 |
| 32 | 195 ms | 380 ms | 87,6 | 168.200 |
| 64 | 310 ms | 620 ms | 79,3 | 304.100 |
Kết quả quan sát được: Model Unit vượt trội ở mọi số liệu. TTFT nhanh hơn 3 lần so với Token API ở mức tải đồng thời cao. TPS vẫn duy trì ổn định ngay cả khi hệ thống chịu tải nặng. Thông lượng đỉnh đạt 304K TPM, cao gấp 16 lần khả năng mà Token API có thể cung cấp. Và cần lưu ý rằng đây là hiệu năng đi kèm SLA được đảm bảo, không phải theo cơ chế hết sức có thể.

| Đồng thời | TTFT trung bình | P99 TTFT | TPS trung bình | Thông lượng (TPM) |
|---|---|---|---|---|
| 1 | 85 ms | 160 ms | 105 | 6.300 |
| 4 | 92 ms | 175 ms | 102,5 | 24.600 |
| 8 | 105 ms | 200 ms | 98,3 | 47.200 |
| 16 | 130 ms | 250 ms | 92,1 | 88.300 |
| 32 | 180 ms | 340 ms | 82,5 | 158.400 |
Kết quả quan sát được: Ở mức tải đồng thời thấp, Bare Metal nhỉnh hơn Model Unit nhờ khả năng truy cập trực tiếp vào GPU và tinh chỉnh tùy chỉnh. Tuy nhiên, mức chênh lệch này khá nhỏ (chỉ khoảng 10–15%). Trong khi đó, chi phí vận hành lại lớn hơn rất nhiều.

| Triển khai | Chi phí hàng tháng* | TPM cao nhất | Độ trễ trung bình (P50) | Chi phí tương đối mỗi 1 triệu token |
|---|---|---|---|---|
| Token API | Thay đổi (tăng theo tuyến tính) | ~19K | 1.850 ms | 1 lần (cơ bản) |
| PTU | ~1,5 lần Model Unit | ~70K | 310 ms | ~2 lần Token API |
| Model Unit (4x MU1) | Cố định (tầm trung) | ~304K | 195 ms | ~0,3 lần Token API |
| Bare Metal (8x H200) | Tương tự như Model Unit | ~158K | 180 ms | ~0,3 lần Token API |
*Dựa trên mức tải duy trì 500 triệu token/ngày, chưa bao gồm chi phí nhân sự đối với Bare Metal. Tất cả chi phí đều là ước tính dựa trên các nguồn công khai.
Điểm đáng chú ý nhất: Model Unit cung cấp thông lượng cao gấp 16 lần Token API với chi phí mỗi token chỉ bằng một phần ba, đồng thời đạt độ trễ tốt hơn một độ lớn. Model Unit không chỉ rẻ hơn. Ở quy mô vận hành thực tế, Model Unit còn vượt trội ở mọi chỉ số có thể đo lường được.

Sau khi đánh giá cả bốn phương án bằng cùng một bộ điểm chuẩn, đây là cây quyết định mà chúng tôi ước mình đã có ngay từ đầu.
Giờ hãy trở lại câu chuyện về công ty khởi nghiệp về công nghệ tài chính của Sarah.
Sau khi xem các kết quả đánh giá, cô ấy đã biết mình nên chọn phương án nào.
Token API rất phù hợp cho giai đoạn nguyên mẫu, nhưng ở quy mô dự kiến của họ thì chi phí hàng tháng sẽ cao hơn khoảng 2 lần so với Model Unit. PTU là phương án dung hòa khá tốt, với chi phí vào khoảng 60–70% Token API. Tuy nhiên, tốc độ tăng trưởng của họ sẽ khiến mức công suất dành riêng không còn đủ dùng chỉ sau khoảng một quý. Phương án Bare Metal bị loại bỏ ngay từ đầu — cả đội ngũ của cô chỉ có 12 kỹ sư, và không ai muốn phải trực xử lý sự cố cho cụm GPU lúc 3 giờ sáng.
Họ đã chọn Model Unit. Họ triển khai 4 đơn vị MU1 trên PAI-EAS, sử dụng DeepSeek V4-Flash kết hợp với một checkpoint tinh chỉnh tùy chỉnh theo ngành mà họ hoạt động.
Kết quả sau một tháng vận hành trong môi trường thực tế:
Bài học rút ra là gì? Đừng chỉ đánh giá chỉ dựa trên giá dịch vụ ban đầu. Hãy tính đến tổng chi phí sở hữu thực sự, bao gồm chi phí nhân sự vận hành, chi phí cơ hội và nguy cơ hiệu năng suy giảm dưới tải cao. Khi cộng tất cả các yếu tố này lại, Model Unit không chỉ là phương án tiết kiệm nhất ở quy mô lớn, mà còn là lựa chọn duy nhất có thể đồng thời đáp ứng ba yếu tố: hiệu năng, khả năng dự báo và sự an tâm.
Bạn đã sẵn sàng triển khai phiên bản DeepSeek V4-Flash riêng của mình chưa? Dưới đây là những tài nguyên bạn cần:
Đánh giá này được thực hiện trong một môi trường có kiểm soát, sử dụng các khối lượng công việc mô phỏng. Kết quả thực tế của bạn có thể sẽ khác tùy vào:
Các số liệu về giá chỉ là ước tính dựa trên những nguồn thông tin công khai tại thời điểm viết bài. Chương trình chiết khấu theo số lượng, chênh lệch giá theo khu vực và giá khuyến mãi có thể sẽ được áp dụng. Hãy luôn kiểm tra lại các mức chi phí với quản lý tài khoản Alibaba Cloud của bạn trước khi đưa ra bất kỳ cam kết nào.
Bạn có câu hỏi về việc triển khai DeepSeek V4-Flash trên Alibaba Cloud? Đội ngũ AI Infra SA tổ chức các buổi đánh giá hàng tuần. Hãy liên hệ thông qua Biểu mẫu yêu cầu MU được liên kết bên trên.
Bài viết này ban đầu được viết bằng tiếng Anh. Xem bài viết gốc tại đây.
DeepSeek V4-Flash ในวงกว้าง: คู่มือการนำไปใช้ที่ยึดเกณฑ์มาตรฐานเป็นหลัก
139 posts | 4 followers
FollowRegional Content Hub - July 14, 2025
Regional Content Hub - August 5, 2024
Regional Content Hub - June 8, 2026
Alibaba Cloud Vietnam - June 7, 2024
Regional Content Hub - June 3, 2024
Nguyen Phuc Khang - June 4, 2024
139 posts | 4 followers
Follow
Qwen
Full-range, open-source, multimodal, and multi-functional
Learn More
Alibaba Cloud Model Studio
A one-stop generative AI platform to build intelligent applications that understand your business, based on Qwen model series such as Qwen-Max and other popular models
Learn More
Alibaba Cloud for Generative AI
Accelerate innovation with generative AI to create new business success
Learn More
AgentBay
Multimodal cloud-based operating environment and expert agent platform, supporting automation and remote control across browsers, desktops, mobile devices, and code.
Learn MoreMore Posts by Regional Content Hub