×
Community Blog Alibaba Cloud OSS と Model Studio を使用した書籍イメージからのカタログの構築

Alibaba Cloud OSS と Model Studio を使用した書籍イメージからのカタログの構築

このブログでは、Alibaba Cloud OSS バケットに保存されている書籍の表紙画像を読み取るカタログシステムの作成について説明します。

本記事の作成者:Jawad

概要

今日のデジタル時代では、特に図書館、書店、個人のコレクションにとって、ビジュアルコンテンツから情報を効果的に管理および抽出することは非常に重要です。 このプロセスは、クラウドストレージと AI テクノロジーを活用することで劇的に合理化できます。

このブログでは、Alibaba Cloud OSS バケットに保存されている書籍の表紙画像を読み取り、書籍のタイトル、著者、出版社などの詳細を含む CSV ファイル (カタログ) を生成するカタログシステムの作成について説明します。 この方法は、スケーラブルなストレージのための Alibaba Cloud OSS の能力と、画像からインテリジェントに情報を抽出するための Model Studio の Qwen-VL-Plus モデルを組み合わせたものです。 仕組みを確認するには、こちらのビデオをご覧ください。

1. Alibaba Cloud OSS の設定

  • Alibaba Cloud OSS について

    • Alibaba Cloud OSS は、ユーザーがオブジェクトと呼ばれる大量の非構造化データを保存できる、スケーラブルで安全なクラウドストレージサービスです。
  • OSS バケットの作成

    • バケットを作成するには、グローバルな一意の名前の指定やリージョンの選択などが必要です。以下に示すように、すべての書籍の画像を保存するために 'bookcatalog' という名前のバケットを作成しました。

1

  • イメージのアップロード

    • バケットの作成後、PC、ラップトップ、電話などのローカルデバイスから書籍の表紙画像を OSS バケットにアップロードできます。 このデモでは、以下に示すように、書籍の表紙画像をアップロードした “um” という名前のディレクトリを作成しました。

2

2. Model Studio の紹介

Alibaba Cloud Model Studio は、基盤モデルの開発とアプリケーションの構築のためのオールインワンプラットフォームです。 開発者であってもビジネスプロフェッショナルであっても、すばやく基盤モデルアプリケーションの作成とデプロイに取り組むことができます。 Model Studio にはさまざまなオプションが用意されています。

3

このブログでは、Qwen-VL-Plus モデルと対話するために Python プログラムで使用するモデルスタジオから API キーを取得するだけで済みます。 API キーを取得するには、下図に示す手順に従います。

4
5

Qwen-VL-Plus モデルについて

  • Alibaba Cloud Qwen-VL-Plus モデルでは、テキストの抽出、整理、要約機能が強化され、より幅広い画像解像度とアスペクト比もサポートされ、高度な意思決定のための視覚的な推論を改善できます。 さらに、写真を分析して、宿題の質問に対して段階的に回答するなど、複雑な問題を解決できます。 以下に示すように、Model Studio GUI を使用してさまざまな Qwen モデルを試すことができます。 ただし、このブログでは、Python スクリプトを使用して Qwen-VL-Plus モデルへの API 呼び出しを生成します。

6

3. OSS と Qwen モデルの統合

このデモでは、VS Code を使用して Python スクリプトを作成し、ディレクトリ "um""bookcatalog" という名前の OSS バケットに保存されている書籍タイトルページから書籍名、著者名、出版社名などの情報を抽出します。

  • 環境の設定

    • dotenv Pythonライブラリを使用して環境変数を読み込みます。今回の場合、アプリケーションをより安全で管理しやすくするための API キーです。
    • .env ファイルは、API キー、アクセスキー、およびその他の機密情報や設定可能な情報などの環境変数をメインのコードベースの外部に格納するために使用される単純なテキストファイルです。 各行には、以下に示す KEY=value 形式の変数とその値が含まれます。

7

  • API 呼び出しの作成

    • 必要なpythonライブラリと、コードの実行前に設定する必要があるバケット名、リージョン、バケット内のイメージ数などの他の変数を示すコードスニペットの一部です。 完全な python コードにアクセスするには、こちら をクリックしてください

8

4. プログラムの実行と最終結果

  • Python ライブラリ

    • コードを実行する前に、以下のコードを使用して dashcope および dotenv ライブラリをインストールする必要があります。pip install dashscope python-dotenv
    • また、Model Studio から取得した API キーを保存するため、.env ファイルが正しく保存されていることを確認してください。

9

  • 結果を CSV 形式で保存する

    • ターミナル (python3 main.py) または VS Code GUI から直接 main.py を実行します。 実行が完了すると、CSVファイル (book_info.csv) が生成され、main.py と同じフォルダーに保存されます。 このファイルには、書籍の画像から抽出されたすべての必要な情報が含まれます。

10

結果を確認するために、OSS バケットに保存されているbook5の実際の画像を表示します。

11

この画像の Qwen-VL-Plus の出力は "The Art of War, Sun Tzu, Vintage Books" で、ただしく出力されています。

5. 最終的な考え

  • オブジェクトの ACL を "Public-Read" に設定して簡素化し、アクセスキーの使用を回避しました。 ただし、適切なセキュリティ対策を検討することを推奨します。
  • プロンプトを上手に作成することで、AI モデルからの応答の質を大幅に高めることができます。 そのため、さまざまなプロンプトを試して、応答を確認してみることを推奨します。
  • 書籍の表紙に目的の情報がない場合は、出力に特に注意してください。

6. まとめ

Alibaba Cloud OSS と Model Studio の Qwen-VL-Plus モデルを組み合わせることで、表紙画像から本のコレクションを直接カタログ化できる、合理化された自動化ソリューションを実現できます。 画像を OSS に保存し、AI を活用して書籍の詳細情報を抽出することで、CSV 形式で整理された構造化カタログを効率的に生成できます。 この方法は、時間を節約し、手動によるデータ入力を削減できるだけでなく、より大規模なコレクションを作成できる可能性を示しています。 AI とクラウドサービスが進化し続けるにつれて、今回のような統合は、膨大な量の視覚情報を管理し、整理するためのインテリジェントなソリューションを求める組織や個人にとってますます価値のあるものになるでしょう。


この記事は英語から翻訳されています。元の記事 こちら をご参照ください。

0 0 0
Share on

Regional Content Hub

91 posts | 3 followers

You may also like

Comments

Regional Content Hub

91 posts | 3 followers

Related Products