×
Community Blog การสร้างแค็ตตาล็อกจากภาพหนังสือโดยใช้ Alibaba Cloud OSS และ Model Studio

การสร้างแค็ตตาล็อกจากภาพหนังสือโดยใช้ Alibaba Cloud OSS และ Model Studio

บล็อกนี้จะแนะนำคุณเกี่ยวกับการสร้างระบบแค็ตตาล็อกที่อ่านภาพปกหนังสือที่จัดเก็บไว้ในบัคเก็ต Alibaba Cloud OSS

โดย Jawad

เกริ่นนำ

ในยุคดิจิทัลปัจจุบันนี้ การจัดการและดึงข้อมูลจากเนื้อหาภาพอย่างมีประสิทธิภาพถือเป็นสิ่งจำเป็น โดยเฉพาะอย่างยิ่งสำหรับห้องสมุด ร้านหนังสือ และคอลเลกชันส่วนบุคคล การใช้ประโยชน์จากพื้นที่จัดเก็บข้อมูลบนคลาวด์และเทคโนโลยี AI สามารถทำให้กระบวนการนี้มีประสิทธิภาพมากขึ้นอย่างมาก

ในบล็อกนี้ เราจะแนะนำคุณเกี่ยวกับการสร้างระบบแค็ตตาล็อกที่อ่านภาพปกหนังสือที่จัดเก็บไว้ในบัคเก็ต Alibaba Cloud OSS และสร้างไฟล์ CSV (แค็ตตาล็อก) ที่มีรายละเอียดต่างๆ เช่น ชื่อหนังสือ ผู้เขียน และสำนักพิมพ์ แนวทางนี้ผสมผสานความสามารถของ Alibaba Cloud OSS สำหรับพื้นที่จัดเก็บข้อมูลที่ปรับขนาดได้และโมเดล Qwen-VL-Plus ใน Model Studio สำหรับการดึงข้อมูลจากภาพได้อย่างชาญฉลาด หากต้องการดูวิธีการทำงาน โปรดดูวิดีโอนี้

1. การตั้งค่า Alibaba Cloud OSS

  • Alibaba Cloud OSS คืออะไร

    • Alibaba Cloud OSS คือบริการจัดเก็บข้อมูลบนคลาวด์แบบปรับขนาดได้และปลอดภัย ซึ่งช่วยให้ผู้ใช้สามารถจัดเก็บข้อมูลที่ไม่มีโครงสร้างจำนวนมากที่เรียกว่าอ็อบเจ็กต์ได้
  • การสร้างบัคเก็ต OSS

    • การสร้างบัคเก็ตจำเป็นต้องมีชื่อและการเลือกภูมิภาคที่ไม่ซ้ำกันทั่วโลก ดังที่แสดงด้านล่าง ซึ่งฉันสร้างบัคเก็ตชื่อว่า 'bookcatalog' เพื่อจัดเก็บภาพหนังสือทั้งหมดของฉัน"

1

  • กำลังอัปโหลดภาพ

    • เมื่อสร้างบัคเก็ตแล้ว เราสามารถอัปโหลดภาพปกหนังสือไปยังบัคเก็ต OSS ได้จากอุปกรณ์ส่วนตัวของเรา เช่น พีซี แล็ปท็อป หรือโทรศัพท์ ในการสาธิตนี้ ฉันได้สร้างไดเร็กทอรีชื่อ “um” ซึ่งฉันได้อัปโหลดภาพปกหนังสือเข้าไป ดังที่แสดงด้านล่าง

2

2. ขอแนะนำ Model Studio

Alibaba Cloud Model Studio คือแพลตฟอร์มแบบครบวงจรที่ออกแบบมาสำหรับการพัฒนาโมเดลพื้นฐานและการสร้างแอปพลิเคชัน ช่วยให้ทั้งนักพัฒนาและมืออาชีพทางธุรกิจสามารถสร้างและปรับใช้แอปพลิเคชันโมเดลพื้นฐานได้อย่างรวดเร็ว ขอแนะนำให้ผู้อ่านสำรวจตัวเลือกต่างๆ ของ Model Studio

3

สำหรับบล็อกนี้ เราเพียงแค่ต้องรับคีย์ API จาก Model Studio ที่เราจะใช้ในโปรแกรม Python เพื่อโต้ตอบกับโมเดล Qwen-VL-Plus หากต้องการรับรหัส API ให้ทำตามขั้นตอนที่แสดงในรูปต่อไปนี้

4
5

โมเดล Qwen-VL-Plus คืออะไร

  • โมเดล Qwen-VL-Plus ของ Alibaba Cloud นำเสนอความสามารถในการแยกข้อความ การจัดระเบียบ และการสรุปที่มีประสิทธิภาพมากขึ้น รองรับความละเอียดของภาพและอัตราส่วนภาพที่หลากหลายยิ่งขึ้น และปรับปรุงการเรียนรู้ผ่านการมองเพื่อการตัดสินใจที่ซับซ้อนมากขึ้น นอกจากนี้ ยังสามารถวิเคราะห์ภาพถ่ายเพื่อแก้ปัญหาที่ซับซ้อนได้ รวมถึงการหาคำตอบของการบ้านแบบทีละขั้นตอน เราสามารถทดสอบโมเดล Qwen ต่างๆ ได้โดยใช้ GUI ของ Model Studio ดังที่แสดงด้านล่าง อย่างไรก็ตาม สำหรับบล็อกนี้เราจะใช้สคริปต์ Python เพื่อสร้างการเรียกใช้ API ไปยังโมเดล Qwen-VL-Plus

6

3. การผสานการทำงาน OSS กับโมเดล Qwen

สำหรับการสาธิตนี้ เราจะใช้ VS Code ในการเขียนสคริปต์ Python เพื่อดึงข้อมูลต่างๆ เช่น ชื่อหนังสือ ชื่อผู้เขียน และชื่อสำนักพิมพ์จากหน้าชื่อหนังสือที่เก็บไว้ในบัคเก็ต OSS ที่มีชื่อว่า "bookcatalog" ภายใต้ไดเร็กทอรี "um"

  • การจัดเตรียมสภาพแวดล้อม

    • เราจะใช้ไลบรารี Python dotenv เพื่อโหลดตัวแปรสภาพแวดล้อม ในกรณีของเราจะใช้คีย์ API เพื่อทำให้แอปพลิเคชันของเราปลอดภัยและจัดการได้ง่ายขึ้น
    • ไฟล์ .env เป็นไฟล์ข้อความธรรมดาที่ใช้เพื่อจัดเก็บตัวแปรสภาพแวดล้อม เช่น คีย์ API, คีย์การเข้าถึง และข้อมูลที่ละเอียดอ่อนหรือสามารถกำหนดค่าได้อื่นๆ นอกฐานโค้ดหลักของคุณ แต่ละบรรทัดจะมีตัวแปรและค่าในรูปแบบ KEY=value ดังที่แสดงด้านล่าง

7

  • ทำการเรียกใช้ API

    • บางส่วนของ Code Snippets ที่แสดงไลบรารี Python ที่จำเป็นและตัวแปรอื่นๆ เช่น ชื่อบัคเก็ต ภูมิภาค จำนวนภาพในบัคเก็ต ฯลฯ ซึ่งจำเป็นต้องกำหนดค่าก่อนจะรันโค้ด หากต้องการเข้าถึงโค้ด Python ฉบับเต็ม โปรดคลิกที่ ลิงก์นี้

8

4. การรันโปรแกรมและผลลัพธ์ขั้นสุดท้าย

  • ไลบรารี Python

    • ก่อนที่จะรันโค้ด เราต้องติดตั้งไลบรารี dashcope และ dotenv โดยใช้คำสั่งต่อไปนี้ pip install dashscope python-dotenv
    • นอกจากนี้ โปรดตรวจสอบให้แน่ใจว่าคุณมีไฟล์ .env เพื่อจัดเก็บคีย์ API ที่นำมาจาก Model Studio แล้ว

9

  • การจัดเก็บผลลัพธ์ในรูปแบบ CSV

    • รัน main.py จากเทอร์มินัล (python3 main.py) หรือโดยตรงจาก VS Code GUI เมื่อดำเนินการเสร็จสิ้น ไฟล์ CSV (book_info.csv) จะถูกสร้างขึ้นและจัดเก็บในโฟลเดอร์เดียวกับที่เรามี main.py ไฟล์นี้จะมีข้อมูลที่จำเป็นทั้งหมด ซึ่งแยกออกมาจากภาพหนังสือ

10

เพื่อยืนยันผลลัพธ์ ฉันจึงแสดงภาพจริงของ book5 ที่เก็บไว้ในบัคเก็ต OSS:

11

ผลลัพธ์ของ Qwen-VL-Plus สำหรับภาพนี้คือ: "The Art of War, Sun Tzu, Vintage Books" ซึ่งสมบูรณ์แบบ

5. ความคิดเห็นสุดท้าย

  • ฉันตั้งค่า ACL ของอ็อบเจ็กต์เป็น "Public-Read" เพื่อให้ง่ายและหลีกเลี่ยงการใช้คีย์การเข้าถึง อย่างไรก็ตาม ขอแนะนำให้ใช้มาตรการรักษาความปลอดภัยที่เหมาะสม
  • การสร้างพรอมต์ที่ดีสามารถปรับปรุงคุณภาพการตอบสนองจากโมเดล AI ได้อย่างมาก ดังนั้น ขอแนะนำให้ใช้พรอมต์อื่นและดูการตอบกลับ
  • ให้ความสนใจเป็นพิเศษกับผลลัพธ์หากไม่มีข้อมูลที่ต้องการบนหน้าแรกของหนังสือ

6. บทสรุป

สรุปได้ว่า การรวม Alibaba Cloud OSS เข้ากับโมเดล Qwen-VL-Plus ของ Model Studio ช่วยให้เกิดโซลูชันที่มีประสิทธิภาพและอัตโนมัติสำหรับการจัดทำแค็ตตาล็อกคอลเลกชันหนังสือจากภาพปกโดยตรง การจัดเก็บรูปภาพใน OSS และใช้ประโยชน์จาก AI เพื่อดึงรายละเอียดหนังสือที่สำคัญ ช่วยให้เราสร้างแค็ตตาล็อกที่มีระเบียบและมีโครงสร้างในรูปแบบ CSV ได้อย่างมีประสิทธิภาพ แนวทางนี้ไม่เพียงแต่ประหยัดเวลาและลดการป้อนข้อมูลด้วยตนเองเท่านั้น แต่ยังมีศักยภาพในการปรับขนาดสำหรับคอลเลกชันขนาดใหญ่ได้อีกด้วย เนื่องจาก AI และบริการคลาวด์ยังคงพัฒนาอย่างต่อเนื่อง การผสานรวมดังกล่าวจึงมีค่าเพิ่มมากขึ้นสำหรับองค์กรและผู้ที่กำลังมองหาโซลูชันอัจฉริยะเพื่อจัดการและจัดระเบียบข้อมูลภาพจำนวนมาก


บทความนี้แปลจากภาษาอังกฤษ โปรดดูบทความต้นฉบับ ที่นี่

0 0 0
Share on

Regional Content Hub

93 posts | 3 followers

You may also like

Comments