×
Community Blog Xây dựng danh mục từ hình ảnh sách bằng Alibaba Cloud OSS và Model Studio

Xây dựng danh mục từ hình ảnh sách bằng Alibaba Cloud OSS và Model Studio

Blog này sẽ hướng dẫn bạn cách tạo hệ thống danh mục đọc hình ảnh bìa sách được lưu trữ trong bộ chứa Alibaba Cloud OSS.

Do Jawad viết

Giới thiệu

Trong thời đại số ngày nay, việc quản lý và trích xuất thông tin hiệu quả từ nội dung hình ảnh là điều cần thiết, đặc biệt là đối với thư viện, hiệu sách và bộ sưu tập cá nhân. Việc tận dụng công nghệ lưu trữ đám mây và AI có thể giúp đơn giản hóa đáng kể quy trình này.

Trong blog này, chúng tôi sẽ hướng dẫn bạn cách tạo hệ thống danh mục đọc hình ảnh bìa sách được lưu trữ trong bộ chứa Alibaba Cloud OSS và tạo tập tin CSV (danh mục) với các thông tin chi tiết như tên sách, tác giả và nhà xuất bản. Phương pháp này kết hợp sức mạnh của Alibaba Cloud OSS để lưu trữ theo cách có thể tăng dung lượng và mô hình Qwen-VL-Plus trong Model Studio để trích xuất thông tin thông minh từ hình ảnh. Để biết cách thức, vui lòng xem video này.

1. Thiết lập Alibaba Cloud OSS

  • Alibaba Cloud OSS là gì?

    • Alibaba Cloud OSS là dịch vụ lưu trữ đám mây có khả năng mở rộng và bảo mật, giúp người dùng lưu trữ lượng lớn dữ liệu phi cấu trúc gọi là đối tượng.
  • Tạo bộ chứa OSS

    • Để tạo bộ chứa, chúng ta cần có một tên duy nhất và chọn vùng, v.v. như được hiển thị bên dưới. Ở đây, tôi tạo một bộ chứa có tên 'bookcatalog' để lưu trữ tất cả hình ảnh sách của mình."

1

  • Tải hình ảnh lên

    • Sau khi tạo xong bộ chứa, chúng ta có thể tải ảnh bìa sách lên bộ chứa OSS từ thiết bị cục bộ như máy tính, laptop hoặc điện thoại. Trong bản minh họa này, tôi đã tạo một thư mục có tên “um” để tải hình ảnh bìa sách lên, như trong hình bên dưới.

2

2. Giới thiệu về Model Studio

Alibaba Cloud Model Studio là nền tảng toàn diện được thiết kế để phát triển mô hình nền tảng và xây dựng ứng dụng. Studio này giúp cả nhà phát triển và chuyên gia kinh doanh nhanh chóng tham gia vào việc tạo và triển khai các ứng dụng mô hình nền tảng. Người đọc nên khám phá nhiều lựa chọn khác nhau của Model Studio.

3

Trong blog này, chúng ta chỉ cần lấy khóa API từ Model Studio mà chúng ta sẽ sử dụng trong chương trình Python để tương tác với mô hình Qwen-VL-Plus. Để lấy khóa API, hãy làm theo các bước như trong hình sau đây:

4
5

Mô hình Qwen-VL-Plus là gì?

  • Mô hình Qwen-VL-Plus của Alibaba Cloud cung cấp chức năng trích xuất, sắp xếp và tóm tắt văn bản nâng cao, hỗ trợ nhiều độ phân giải hình ảnh và tỷ lệ khung hình hơn, đồng thời cải thiện khả năng suy luận từ hình ảnh để đưa ra quyết định chính xác hơn. Ngoài ra, mô hình còn có thể phân tích ảnh để giải quyết các vấn đề phức tạp, bao gồm giải pháp từng bước cho bài tập về nhà. Chúng ta có thể kiểm tra nhiều mô hình Qwen khác nhau bằng GUI của Model Studio, như minh họa bên dưới. Tuy nhiên, trong blog này, chúng ta sẽ sử dụng tập lệnh Python để tạo lệnh gọi API tới mô hình Qwen-VL-Plus.

6

3. Tích hợp OSS với mô hình Qwen

Đối với bản minh họa này, chúng ta sẽ sử dụng VS Code để viết tập lệnh Python nhằm trích xuất thông tin như tên sách, tên tác giả và nhà xuất bản từ các trang tiêu đề sách được lưu trữ trong bộ chứa OSS có tên "bookcatalog" trong thư mục "um".

  • Thiết lập môi trường

    • Chúng ta sẽ sử dụng thư viện Python dotenv để tải các biến môi trường, trong trường hợp này là khóa API để làm giúp ứng dụng tăng độ bảo mật và dễ quản lý hơn.
    • Tập tin .env là tập tin văn bản đơn giản được dùng để lưu trữ các biến môi trường như khóa API, Khóa truy cập và các thông tin nhạy cảm hoặc có thể cấu hình khác bên ngoài cơ sở mã chính của bạn. Mỗi dòng chứa một biến và giá trị của tương ứng theo định dạng KEY=value như hình minh họa bên dưới.

7

  • Thực hiện lệnh gọi API

    • Một số đoạn mã hiển thị thư viện Python cần thiết và các biến khác như tên bộ chứa, vùng, số lượng hình ảnh trong bộ chứa, v.v. cần được cấu hình trước khi chạy mã. Để truy cập mã python đầy đủ, vui lòng nhấp vào liên kết này.

8

4. Chạy chương trình và kết quả cuối cùng

  • Thư viện Python.

    • Trước khi thực thi mã, chúng ta cần cài đặt thư viện dashcope và dotenv bằng cách sử dụng lệnh này: pip install dashscope python-dotenv
    • Ngoài ra, hãy đảm bảo bạn có tập tin .env để lưu trữ khóa API lấy từ Model Studio.

9

  • Lưu trữ kết quả ở định dạng CSV

    • Chạy main.py từ thiết bị (python3 main.py) hoặc trực tiếp từ GUI VS Code. Sau khi thực thi xong, tập tin CSV (book_info.csv) sẽ được tạo và lưu trữ trong cùng thư mục của tập tin main.py. Tập tin này chứa tất cả thông tin cần thiết được trích xuất từ ​​hình ảnh sách.

10

Để xác minh kết quả, tôi sẽ hiển thị hình ảnh thực tế của book5 được lưu trữ trong bộ chứa OSS:

11

Kết quả của Qwen-VL-Plus cho hình ảnh này là: "Binh pháp Tôn Tử, Sách cổ", rất hoàn hảo.

5. Lời cuối

  • Tôi đã đặt ACL của các đối tượng thành "Public-Read" cho đơn giản và tránh sử dụng Khóa truy cập. Tuy nhiên, bạn nên cân nhắc các biện pháp bảo mật phù hợp.
  • Một gợi ý hiệu quả có thể cải thiện đáng kể chất lượng phản hồi từ các mô hình AI. Vì vậy, bạn nên thử nhiều gợi ý khác nhau và xem phản hồi.
  • Đặc biệt chú ý đến kết quả nếu thiếu thông tin mong muốn ở trang đầu của sách.

6. Kết luận

Tóm lại, việc kết hợp Alibaba Cloud OSS với mô hình Qwen-VL-Plus của Model Studio sẽ tạo ra giải pháp tự động, tinh giản giúp lập danh mục bộ sưu tập sách trực tiếp từ hình ảnh bìa. Bằng cách lưu trữ hình ảnh trong OSS và tận dụng AI để trích xuất thông tin cần thiết của sách, chúng ta có thể tạo các danh mục có cấu trúc và được sắp xếp hợp lý ở định dạng CSV một cách hiệu quả. Phương pháp này không chỉ tiết kiệm thời gian và giảm việc nhập dữ liệu thủ công, mà còn có tiềm năng mở rộng cho các bộ sưu tập lớn hơn. Khi AI và các dịch vụ đám mây tiếp tục phát triển, những hoạt động tích hợp như vậy sẽ ngày càng có giá trị đối với các tổ chức và cá nhân đang tìm các giải pháp thông minh để quản lý và sắp xếp lượng thông tin hình ảnh khổng lồ.


Bài viết này được dịch từ tiếng Anh. Xem bài viết gốc tại đây.

0 0 0
Share on

Regional Content Hub

95 posts | 3 followers

You may also like

Comments

Regional Content Hub

95 posts | 3 followers

Related Products