Membuat Katalog dari Gambar Buku Menggunakan OSS dan Model Studio Alibaba Cloud

Oleh Jawad

Pendahuluan

Di zaman digital saat ini, mengelola dan mengekstrak informasi dari konten visual sangat penting, terutama untuk perpustakaan, toko buku, dan koleksi pribadi. Memanfaatkan penyimpanan cloud dan teknologi AI dapat menyederhanakan proses ini secara drastis.

Di blog ini, kami akan memandu Anda dalam membuat sistem katalog yang membaca gambar sampul buku yang tersimpan di bucket OSS Alibaba Cloud dan menghasilkan file CSV (katalog) dengan perincian seperti judul buku, penulis, dan penerbit. Pendekatan ini menggabungkan kekuatan Alibaba Cloud OSS untuk penyimpanan yang dapat diskalakan dan model Qwen-VL-Plus di Model Studio untuk ekstraksi informasi cerdas dari gambar. Untuk melihat cara kerjanya, tonton video ini.

1. Menyiapkan OSS Alibaba Cloud

Apa itu OSS Alibaba Cloud?
- OSS Alibaba Cloud adalah layanan penyimpanan cloud yang dapat diskalakan dan aman yang memungkinkan pengguna untuk menyimpan sejumlah besar data tidak terstruktur yang disebut objek.
Membuat Bucket OSS
- Membuat Bucket membutuhkan nama unik dan pilihan wilayah secara global dll., seperti yang ditunjukkan di bawah ini tempat saya membuat bucket bernama 'bookcatalog' untuk menyimpan semua gambar buku saya."

Mengunggah gambar
- Setelah bucket dibuat, kita dapat mengunggah gambar sampul buku ke bucket OSS dari perangkat lokal kita seperti PC, Laptop, atau Ponsel. Dalam demo ini, saya telah membuat direktori bernama um tempat saya mengunggah gambar sampul buku, seperti yang ditunjukkan di bawah ini.

2. Memperkenalkan Model Studio

Model Studio Alibaba Cloud adalah platform lengkap yang dirancang untuk pengembangan model dasar dan pembuatan aplikasi. Platform ini memungkinkan pengembang dan profesional bisnis untuk terlibat dengan cepat dalam membuat dan menerapkan aplikasi model dasar. Pembaca didorong untuk menjelajahi berbagai opsi Model studio.

Untuk blog ini, kita hanya perlu mendapatkan kunci API dari model studio yang akan digunakan dalam program Python kita untuk berinteraksi dengan model Qwen-VL-Plus. Untuk mendapatkan kunci API, ikuti langkah-langkah yang ditunjukkan dalam gambar berikut:

Apa Model Qwen-VL-Plus itu?

Model Qwen-VL-Plus Alibaba Cloud menawarkan kemampuan ekstraksi teks, organisasi, dan peringkasan yang disempurnakan, mendukung berbagai resolusi gambar dan rasio aspek, serta meningkatkan penalaran visual untuk pengambilan keputusan yang lebih canggih. Selain itu, model ini dapat menganalisis foto untuk memecahkan masalah kompleks, termasuk solusi langkah demi langkah untuk pertanyaan terkait pekerjaan rumah. Kita dapat menguji berbagai model Qwen menggunakan GUI Model Studio, seperti yang ditunjukkan di bawah ini. Namun, untuk blog ini kita akan menggunakan skrip Python untuk menghasilkan panggilan API ke model Qwen-VL-Plus.

3. Mengintegrasikan OSS dengan Model Qwen

Untuk demo ini, kita akan menggunakan VS Code untuk menulis skrip Python guna mengekstrak informasi, seperti nama buku, penulis, dan nama penerbit, dari halaman judul buku yang tersimpan di bucket OSS bernama "bookcatalog" di bawah direktori "um".

Menyiapkan Lingkungan
- Kita akan menggunakan pustaka Python dotenv untuk memuat variabel lingkungan, dalam kasus ini, kunci API, untuk menjadikan aplikasi kita lebih aman dan dapat dikelola.
- File .env adalah file teks sederhana yang digunakan untuk menyimpan variabel lingkungan, seperti kunci API, Kunci Akses, dan informasi sensitif atau yang dapat dikonfigurasi lainnya di luar basis kode utama Anda. Setiap baris berisi variabel dan nilainya dalam format KEY=value seperti ditunjukkan di bawah ini.

Melakukan Panggilan API
- Beberapa bagian dari potongan kode yang menunjukkan pustaka Python dan variabel lainnya yang diperlukan, seperti nama bucket, wilayah, jumlah gambar dalam bucket, dll., yang perlu dikonfigurasikan sebelum menjalankan kode. Untuk mengakses kode python lengkap, klik tautan ini.

4. Menjalankan Program dan Hasil Akhir

Pustaka Python.
- Sebelum menjalankan kode, kita harus menginstal pustaka dashcope dan dotenv menggunakan yang berikut ini: pip install dashscope python-dotenv
- Selain itu, pastikan Anda memiliki file .env untuk menyimpan kunci API yang diambil dari Model Studio.

Menyimpan Hasil dalam Format CSV
- Jalankan main.py baik dari terminal (python3 main.py) atau langsung dari GUI VS Code. Setelah selesai dijalankan, file CSV (book_info.csv) akan dibuat dan disimpan di folder yang sama tempat kita menyimpan main.py. File ini berisi semua informasi yang diperlukan yang diekstrak dari gambar buku.

Untuk memverifikasi hasilnya, saya menunjukkan gambar sebenarnya buku5 yang tersimpan di bucket OSS:

Output Qwen-VL-Plus untuk gambar ini adalah: "Seni Berperang, Sun Tzu, Buku Antik" yang sempurna.

5. Pendapat akhir

Saya telah mengatur ACL objek ke "Baca-Publik" untuk menyederhakannya dan menghindari penggunaan Kunci Akses. Namun, disarankan untuk mempertimbangkan langkah keamanan yang tepat.
Prompt yang disusun dengan baik dapat secara signifikan meningkatkan kualitas respons dari model AI. Jadi, disarankan untuk mencoba berbagai prompt dan melihat responsnya.
Perhatikan baik-baik output-nya jika informasi yang diinginkan tidak ada di halaman depan buku.

6. Kesimpulan

Kesimpulannya, menggabungkan OSS Alibaba Cloud dengan model Qwen-VL-Plus dari Model Studio memungkinkan solusi otomatis yang disederhanakan untuk membuat katalog koleksi buka langsung dari gambar sampul. Dengan menyimpan gambar di OSS dan memanfaatkan AI untuk mengekstrak perincian penting buku, kita dapat menghasilkan katalog yang teratur dan terstruktur dalam format CSV secara efisien. Pendekatan ini tidak hanya menghemat waktu dan mengurangi entri data manual, tetapi juga menawarkan potensi yang dapat diskalakan untuk koleksi yang lebih besar. Karena layanan AI dan cloud terus berkembang, integrasi tersebut akan menjadi semakin berharga bagi organisasi dan individu yang mencari solusi cerdas untuk mengelola dan mengatur sejumlah besar informasi visual.

Artikel ini diterjemahkan dari bahasa Inggris. Lihat artikel asli di sini.

Community

Membuat Katalog dari Gambar Buku Menggunakan OSS dan Model Studio Alibaba Cloud

Pendahuluan

1. Menyiapkan OSS Alibaba Cloud

2. Memperkenalkan Model Studio

Apa Model Qwen-VL-Plus itu?

3. Mengintegrasikan OSS dengan Model Qwen

4. Menjalankan Program dan Hasil Akhir

5. Pendapat akhir

6. Kesimpulan

Read previous post:

Read next post:

Regional Content Hub

You may also like

Comments

Regional Content Hub

Related Products

Alibaba Cloud Model Studio

Tongyi Qianwen (Qwen)

Hybrid Cloud Distributed Storage

OSS(Object Storage Service)

A Free Trial That Lets You Build Big!