×
Community Blog Alibaba Cloud OSS와 Model Studio를 사용하여 책 이미지로 카탈로그 만들기

Alibaba Cloud OSS와 Model Studio를 사용하여 책 이미지로 카탈로그 만들기

이 블로그는 Alibaba Cloud OSS 버킷에 저장된 책 표지 이미지를 읽는 카탈로그 시스템을 만드는 방법을 안내합니다.

작성자: Jawad

소개

오늘날의 디지털 시대에는 시각적 콘텐츠에서 정보를 효과적으로 관리하고 추출하는 것이 필수적이며, 특히 도서관, 서점, 개인 소장품의 경우 더욱 그렇습니다. 클라우드 스토리지와 AI 기술을 활용하면 이 과정을 획기적으로 간소화할 수 있습니다.

이 블로그에서는 Alibaba Cloud OSS 버킷에 저장된 책 표지 이미지를 읽고 책 제목, 저자, 출판사 등의 세부 정보가 포함된 CSV 파일(카탈로그)을 생성하는 카탈로그 시스템을 만드는 과정을 안내합니다. 이 접근법은 확장 가능한 저장 공간에 대한 Alibaba Cloud OSS의 강력한 기능과 이미지에서 지능적인 정보 추출을 위한 Model Studio의 Qwen-VL-Plus 모델을 결합합니다. 작동 방식을 확인하려면 이 동영상을 시청하세요.

1. Alibaba Cloud OSS 설정

  • Alibaba Cloud OSS란 무엇인가요?

    • Alibaba Cloud OSS는 사용자가 오브젝트라고 불리는 비정형 데이터를 대량으로 저장할 수 있도록 하는 확장 가능하고 안전한 클라우드 스토리지 서비스입니다.
  • OSS 버킷 만들기

    • 버킷을 만들려면 아래와 같이 전 세계적으로 고유한 이름과 지역 선택 등이 필요합니다. 저는 모든 책 이미지를 저장하기 위해 'bookcatalog'라는 이름의 버킷을 만들었습니다.”

1

  • 이미지 업로드

    • 버킷이 생성되면, PC, 노트북, 휴대폰 등 로컬 디바이스에서 OSS 버킷에 책 표지 이미지를 업로드할 수 있습니다. 이 데모에서는 아래와 같이 책 표지 이미지를 업로드한 “um”이라는 디렉토리를 만들었습니다.

2

2. Model Studio 소개

Alibaba Cloud Model Studio는 기초 모델 개발과 애플리케이션 구축을 위해 설계된 올인원 플랫폼입니다. 개발자와 비즈니스 전문가 모두 기초 모델 애플리케이션을 신속하게 만들고 배포할 수 있습니다. 독자들은 Model studio의 다양한 옵션을 살펴보기를 권장합니다.

3

이 블로그에서는 Python 프로그램에서 Qwen-VL-Plus 모델과 상호 작용하는 데 사용할 Model studio에서 API 키를 얻는 것만 하면 됩니다. API 키를 얻으려면 다음 그림에 표시된 단계를 따르십시오.

4
5

Qwen-VL-Plus 모델이란 무엇입니까?

  • Alibaba Cloud Qwen-VL-Plus 모델은 향상된 텍스트 추출, 구성, 요약 기능을 제공하고, 더 넓은 범위의 이미지 해상도와 종횡비를 지원하며, 고급 의사 결정을 위한 시각적 추론을 개선합니다. 또한 사진을 분석하여 숙제 문제에 대한 단계별 솔루션을 포함한 복잡한 문제를 해결할 수 있습니다. 아래와 같이 Model Studio의 GUI를 사용하여 다양한 Qwen 모델을 테스트할 수 있습니다. 그러나 이 블로그에서는 Python 스크립트를 사용하여 Qwen-VL-Plus 모델에 대한 API 호출을 생성할 것입니다.

6

3. OSS와 Qwen 모델의 통합

이 데모에서는 VS Code를 사용하여 Python 스크립트를 작성하여 “um” 디렉토리 아래에 있는 “bookcatalog”라는 OSS 버킷에 저장된 책 제목 페이지에서 책 이름, 저자 및 출판사 이름과 같은 정보를 추출합니다.

  • 환경 설정

    • 우리는 dotenv Python 라이브러리를 사용하여 환경 변수를 로드할 것입니다. 이 경우, 애플리케이션을 보다 안전하고 관리하기 쉽게 만들기 위한 API 키입니다.
    • .env 파일은 API 키, 액세스 키, 그리고 주요 코드베이스 외부에 있는 기타 민감하거나 구성 가능한 정보와 같은 환경 변수를 저장하는 데 사용되는 간단한 텍스트 파일입니다. 각 줄에는 아래와 같이 KEY=value 형식의 변수와 그 값이 포함되어 있습니다.

7

  • API 호출하기

    • 코드 실행 전에 구성해야 하는 버킷 이름, 지역, 버킷 내의 이미지 수 등과 같은 변수와 필요한 python 라이브러리를 보여주는 코드 스니펫의 일부입니다. 전체 python 코드에 액세스하려면 이 링크를 클릭하십시오.

8

4. 프로그램 실행 및 최종 결과

  • Python 라이브러리.

    • 코드를 실행하기 전에 다음을 사용하여 dashscope 및 dotenv 라이브러리를 설치해야 합니다: pip install dashscope python-dotenv
    • 또한, Model Studio에서 가져온 API 키를 저장할 .env 파일이 있는지 확인하십시오.

9

  • CSV 형식으로 결과 저장

    • 터미널(python3 main.py) 또는 VS 코드 GUI에서 직접 main.py를 실행합니다. 실행이 완료되면 (book_info.csv)라는 CSV 파일이 생성되어 main.py가 있는 동일한 폴더에 저장됩니다. 이 파일에는 책 이미지에서 추출된 모든 필요한 정보가 포함되어 있습니다.

10

결과를 확인하기 위해 OSS 버킷에 저장된 book5의 실제 이미지를 보여드리고 있습니다:

11

이 이미지에 대한 Qwen-VL-Plus의 출력은 다음과 같습니다: "The Art of War, Sun Tzu, Vintage Books"로 완벽하게 출력됩니다.

5. 마지막 한 마디

  • 저는 오브젝트의 ACL을 "Public-Read"로 설정하여 간단하게 만들고 액세스 키 사용을 피했습니다. 그러나 적절한 보안 조치를 고려하는 것이 좋습니다.
  • 잘 만들어진 프롬프트는 AI 모델의 응답 품질을 크게 향상시킬 수 있습니다. 따라서 다양한 프롬프트를 시도해 보고 응답을 확인하는 것이 좋습니다.
  • 책의 첫 페이지에 원하는 정보가 없는 경우 출력에 특히 주의하십시오.

6. 결론

결론적으로, Alibaba Cloud OSS와 Model Studio의 Qwen-VL-Plus 모델을 결합하면 표지 이미지에서 직접 책 컬렉션을 카탈로그링하는 간소화된 자동화 솔루션을 구현할 수 있습니다. OSS에 이미지를 저장하고 AI를 활용하여 필수 도서 세부 정보를 추출함으로써, CSV 형식의 체계적이고 구조화된 카탈로그를 효율적으로 생성할 수 있습니다. 이 접근 방식은 시간을 절약하고 수동 데이터 입력을 줄일 뿐만 아니라, 대규모 컬렉션에 대한 확장 가능한 잠재력을 제공합니다. AI와 클라우드 서비스가 계속 발전함에 따라, 방대한 양의 시각적 정보를 관리하고 체계화하기 위한 인텔리전트 솔루션을 찾는 조직과 개인에게 이러한 통합은 점점 더 가치 있게 될 것입니다.


이 문서는 영어에서 번역되었습니다. 원본 문서 여기 참조.

0 0 0
Share on

Regional Content Hub

91 posts | 3 followers

You may also like

Comments