Oleh Farruh

Di era AI Generatif (GenAI), Model Bahasa Besar (LLM) tidak lagi terbatas pada teks. Model multimodal seperti Qwen2.5 Omni menjembatani celah antara teks, gambar, audio, dan video, yang memungkinkan AI untuk berpikir, melihat, mendengar, dan berbicara - seperti kita manusia.


1. Pengodean Posisional TMRoPE:
2. Arsitektur Thinker-Talker:
3. Efisiensi Streaming:

| Tugas | Qwen 2.5-Omni | Qwen2.5-VL | GPT-4o-Mini | Mutakhir |
|---|---|---|---|---|
| Gambar→Teks | 59,2 (MMMUval) | 58,6 | 60,0 | 53,9 (Lainnya) |
| Video→Teks | 72,4 (Video-MME) | 65,1 | 64,8 | 63,9 (Lainnya) |
| Penalaran Multimodal | 81,8 (MMBench) | T/A | 76,0 | 80,5 (Lainnya) |
| Pembuatan Ucapan | 1,42% WER (Mandarin) | T/A | T/A | 2,33% (Inggris) |
1. Buka Model Studio Alibaba Cloud atau tautan Halaman pendahuluan Model Studio.
2. Cari "Qwen2.5-Omni" dan buka halamannya.

3. Otorisasi akses ke model (gratis untuk penggunaan dasar).
Pengaturan yang memprioritaskan keamanan:
1. Buat lingkungan virtual (disarankan):
python -m venv qwen-env
source qwen-env/bin/activate # Linux/MacOS | Windows: qwen-env\Scripts\activate
2. Instal dependensi:
pip install openai
3. Simpan kunci API dengan aman:
Buat file .env di direktori proyek Anda:
DASHSCOPE_API_KEY=your_api_key_here
Gunakan pustaka OpenAI untuk berinteraksi dengan Qwen2.5-Omni:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.getenv("DASHSCOPE_API_KEY"),
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
# Example: Text + Audio Output
completion = client.chat.completions.create(
model="qwen2.5-omni-7b",
messages=[{"role": "user", "content": "Siapa Anda?"}],
modalities=["text", "audio"], # Tentukan format output (teks/audio)
audio={"voice": "Chelsie", "format": "wav"},
stream=True, # Aktifkan streaming real-time
stream_options={"include_usage": True},
)
# Proses respons streaming
untuk potongan saat selesai:
if chunk.choices:
print("Partial response:", chunk.choices[0].delta)
else:
print("Usage stats:", chunk.usage)
| Fitur | Detail |
|---|---|
| Jenis Input | Teks, gambar, audio, video (melalui URL/Base64) |
| Modalitas Output | Tentukan parameter modalitas (misalnya, ["text", "audio"] untuk output ganda) |
| Dukungan Streaming | Hasil real-time melalui stream=True
|
| Keamanan | Variabel lingkungan untuk kunci API (file .env) |
Kasus Penggunaan: Pemberian keterangan acara siaran langsung dengan deteksi emosi.
Kasus Penggunaan: Membuat deskripsi produk dari gambar dan ulasan pengguna.
# Input: Gambar produk + "Tulis ulasan bintang 5 dalam bahasa Spanyol"
# Output: Ulasan teks + versi audio dalam bahasa Spanyol.
1. Batas Ukuran Berkas:
2. Optimal untuk Streaming:
stream = Trueuntuk output real time.
Seiring perkembangan GenAI, kemampuan multimodal akan mendominasi industri dari perawatan kesehatan hingga hiburan. Dengan menguasai Qwen2.5 Omni, Anda memasuki era berikutnya dari kolaborasi manusia dengan AI.
Mulailah bereksperimen hari ini dan bergabunglah dengan revolusi!
Artikel ini diterjemahkan dari bahasa Inggris. Lihat artikel asli di sini.
129 posts | 4 followers
FollowFarruh - April 8, 2025
Alibaba Cloud Community - March 27, 2025
Alibaba Cloud Indonesia - November 7, 2025
Regional Content Hub - April 29, 2025
Kidd Ip - May 13, 2025
Regional Content Hub - April 21, 2025
129 posts | 4 followers
Follow
Tongyi Qianwen (Qwen)
Top-performance foundation models from Alibaba Cloud
Learn More
Alibaba Cloud Model Studio
A one-stop generative AI platform to build intelligent applications that understand your business, based on Qwen model series such as Qwen-Max and other popular models
Learn More
Container Compute Service (ACS)
A cloud computing service that provides container compute resources that comply with the container specifications of Kubernetes
Learn More
Container Service for Kubernetes
Alibaba Cloud Container Service for Kubernetes is a fully managed cloud container management service that supports native Kubernetes and integrates with other Alibaba Cloud products.
Learn MoreMore Posts by Regional Content Hub