By Vo Thi Phuong Anh, Alibaba Cloud Solutions Architect of Vietnam
1) PAI-iTAG là gì?
iTAG là một nền tảng gắn nhãn dữ liệu thông minh đáng chú ý trên Alibaba Cloud Machine Learning Platform for AI (PAI). Với khả năng đa dạng hóa, iTAG cho phép bạn dễ dàng thực hiện quá trình gắn nhãn dữ liệu cho nhiều loại hình ảnh, văn bản, video và âm thanh, cũng như dữ liệu đa phương thức kết hợp.
Một trong những điểm mạnh của iTAG chính là khả năng cung cấp nhiều loại nội dung gắn nhãn và thành phần chủ đề khác nhau. Nhờ vào đó, bạn có thể tùy chỉnh và áp dụng các mẫu gắn nhãn phù hợp với mục tiêu cụ thể của bạn. Tùy theo từng kịch bản kinh doanh, bạn có thể sử dụng những mẫu gắn nhãn thông thường có sẵn từ iTAG hoặc tự tạo ra những mẫu gắn nhãn tùy chỉnh để phản ánh chính xác các yêu cầu và nhiệm vụ của dự án.
Với việc hỗ trợ các mảng dữ liệu đa dạng, iTAG giúp bạn thu thập và xử lý thông tin quan trọng từ nhiều nguồn khác nhau. Bạn có thể dễ dàng gắn nhãn hình ảnh để xác định và phân loại các đối tượng, gắn nhãn văn bản để tạo dữ liệu huấn luyện cho hệ thống xử lý ngôn ngữ tự nhiên, hay thậm chí gắn nhãn âm thanh và video để tạo dữ liệu đào tạo cho ứng dụng liên quan đến âm thanh và video.
Với iTAG, việc gắn nhãn dữ liệu không chỉ đơn giản hơn mà còn hiệu quả hơn. Nền tảng này cho phép bạn nhanh chóng tạo ra tập dữ liệu đa dạng và giàu thông tin, là nguồn cung cấp quý báu để huấn luyện và cải tiến các mô hình trí tuệ nhân tạo của bạn.
2) Các bước thực hiện task gắn nhãn dữ liệu với PAI-iTAG
Thực hiện gắn nhãn dữ liệu trên iTAG bao gồm những bước sau:
Để tham khảo cách tạo bộ dữ liệu trên Alibaba Cloud PAI, bạn có thể tham khảo bài biết Thêm một bộ dữ liệu (dataset) trong series này.
Giai đoạn (1) là bắt buộc, hai giai đoạn sau là tùy chọn. Khi bạn tạo một công việc gắn nhãn, bạn có thể chỉ định một trong các sự kết hợp sau đây của các giai đoạn cho công việc: (1) Giai đoạn gắn nhãn. (2) Giai đoạn gắn nhãn và review. (3) Giai đoạn gắn nhãn và xác nhận. (4) Giai đoạn gắn nhãn, xem xét và xác nhận. Danh sách sau đây mô tả các hoạt động trong mỗi giai đoạn:
○ Gắn nhãn: Trên trang công việc gắn nhãn trong bảng điều khiển iTAG, một công nhân gắn nhãn nhận một gói công việc. Sau đó, công nhân gắn nhãn các dữ liệu trong gói công việc và nộp gói công việc.
○ Xem xét: Trên trang kiểm tra chất lượng trong bảng điều khiển iTAG, một công nhân gắn nhãn nhận một gói công việc có dữ liệu được gắn nhãn. Sau đó, công nhân gắn nhãn có thể xem xét, chỉnh sửa hoặc từ chối kết quả gắn nhãn.
○ Xác nhận: Trên trang công việc chấp nhận trong bảng điều khiển iTAG, người cần kết quả gắn nhãn nhận một gói công việc, xem xét kết quả gắn nhãn trong gói công việc và sau đó chấp nhận hoặc từ chối gói công việc.
Lưu ý: Để thực hiện gắn nhã dữ liệu với iTAG, dữ liệu đầu vào của bạn cần ở định dạng .manifest; dữ liệu gắn nhãn đầu ra cũng được xuất cùng định dạng.
3) Hướng dẫn thực hiện task gắn nhãn dữ liệu với PAI-iTAG
Đầu tiên, truy cập vào Workplace PAI của bạn, sau đó chọn iTAG để vào trang làm việc của iTAG. Chọn Create Task để bắt đầu set up task gắn nhãn dữ liệu của bạn.
Màn hình thiết lập các thông số sẽ hiện ra để bạn có thể chọn cho task gắn nhãn của mình. Ở phần đầu tiên, bạn sẽ chọn Dữ liệu (dataset) và các Template có sẵn hoặc dùng Template của riêng bạn.
Trong bài viết này, chúng tôi sẽ sử dụng Template có sẵn của iTAG với các thông số mẫu như sau:
Sau khi hoàn thành, nhấn Next để sang phần Adjust Review.
Tại phần Adjust Review, bạn có thể xem lại thông tin thiết lập của (các) label của mình. Nếu không cần thay đổi gì, bạn có thể chọn Next.
Tại phần Intelligent Labelling Configuration, đối với các task cơ bản, bạn có thể chọn bỏ qua phần này. Chọn Next để đến tab 4. Distribute Task.
Tại phần Distrubute Task, bạn có thể cấu hình cho các phần/package trong task label của mình.
Nhấn OK để hoàn tất. Task gắn nhãn của bạn đã được tạo trên PAI-iTAG.
Sau khi tạo một task gắn nhãn trên iTAG, bạn có thể thực hiện một số thao tác liên quan với task của mình.
(1) Go to the iTAG Page: vào iTAG Console, tại đây bạn có thể thực hiện các thao tác process, review, accept các labelling job.
(2) Task Status: Trạng thái của task
(3) Subtask Details: Các thông tin của các sub-task
(4) Other jobs: Một số thao tác khác với tasks như public, copy, delelte
(5) Export Labelling
(6) Obtain Data Record
50 posts | 7 followers
FollowRupal_Click2Cloud - November 23, 2023
PM - C2C_Yuan - March 18, 2024
Xi Ning Wang(王夕宁) - August 17, 2023
Xi Ning Wang(王夕宁) - August 17, 2023
5055118765133237 - January 17, 2023
Xi Ning Wang(王夕宁) - August 17, 2023
50 posts | 7 followers
FollowLeverage cloud-native database solutions dedicated for FinTech.
Learn MoreMigrate your legacy Oracle databases to Alibaba Cloud to save on long-term costs and take advantage of improved scalability, reliability, robust security, high performance, and cloud-native features.
Learn MoreMigrating to fully managed cloud databases brings a host of benefits including scalability, reliability, and cost efficiency.
Learn MoreDBStack is an all-in-one database management platform provided by Alibaba Cloud.
Learn MoreMore Posts by Alibaba Cloud Vietnam