×
Community Blog Data Labelling with iTAG

Data Labelling with iTAG

Bài viết này hướng dẫn thực hiện việc GẮN NHÃN DỮ LIỆU (DATA LABELLING) VỚI PAI-iTAG

THỰC HIỆN GẮN NHÃN DỮ LIỆU (DATA LABELLING) VỚI PAI-iTAG

By Vo Thi Phuong Anh, Alibaba Cloud Solutions Architect of Vietnam


1) PAI-iTAG là gì?
iTAG là một nền tảng gắn nhãn dữ liệu thông minh đáng chú ý trên Alibaba Cloud Machine Learning Platform for AI (PAI). Với khả năng đa dạng hóa, iTAG cho phép bạn dễ dàng thực hiện quá trình gắn nhãn dữ liệu cho nhiều loại hình ảnh, văn bản, video và âm thanh, cũng như dữ liệu đa phương thức kết hợp.

Một trong những điểm mạnh của iTAG chính là khả năng cung cấp nhiều loại nội dung gắn nhãn và thành phần chủ đề khác nhau. Nhờ vào đó, bạn có thể tùy chỉnh và áp dụng các mẫu gắn nhãn phù hợp với mục tiêu cụ thể của bạn. Tùy theo từng kịch bản kinh doanh, bạn có thể sử dụng những mẫu gắn nhãn thông thường có sẵn từ iTAG hoặc tự tạo ra những mẫu gắn nhãn tùy chỉnh để phản ánh chính xác các yêu cầu và nhiệm vụ của dự án.

Với việc hỗ trợ các mảng dữ liệu đa dạng, iTAG giúp bạn thu thập và xử lý thông tin quan trọng từ nhiều nguồn khác nhau. Bạn có thể dễ dàng gắn nhãn hình ảnh để xác định và phân loại các đối tượng, gắn nhãn văn bản để tạo dữ liệu huấn luyện cho hệ thống xử lý ngôn ngữ tự nhiên, hay thậm chí gắn nhãn âm thanh và video để tạo dữ liệu đào tạo cho ứng dụng liên quan đến âm thanh và video.

Với iTAG, việc gắn nhãn dữ liệu không chỉ đơn giản hơn mà còn hiệu quả hơn. Nền tảng này cho phép bạn nhanh chóng tạo ra tập dữ liệu đa dạng và giàu thông tin, là nguồn cung cấp quý báu để huấn luyện và cải tiến các mô hình trí tuệ nhân tạo của bạn.

2) Các bước thực hiện task gắn nhãn dữ liệu với PAI-iTAG
Screen_Shot_2023_09_15_at_00_05_30

Thực hiện gắn nhãn dữ liệu trên iTAG bao gồm những bước sau:

  • Bước 1: Tạo một bộ dữ liệu để gắn nhãn
    Trong mô-đun quản lý bộ dữ liệu, tạo một bộ dữ liệu cho dữ liệu cần được gắn nhãn. Một tệp chỉ mục .manifest được tạo ra.

Để tham khảo cách tạo bộ dữ liệu trên Alibaba Cloud PAI, bạn có thể tham khảo bài biết Thêm một bộ dữ liệu (dataset) trong series này.

  • Bước 2: Tạo task gắn nhãn
    Sử dụng một mẫu gắn nhãn thông thường hoặc tùy chỉnh để tạo một công việc gắn nhãn. Sau đó, phân phát các gói công việc. Một công việc gắn nhãn có thể hoàn thành trong ba giai đoạn: gắn nhãn dữ liệu trong các gói công việc, xem xét kết quả gắn nhãn và chấp nhận các gói công việc.

Giai đoạn (1) là bắt buộc, hai giai đoạn sau là tùy chọn. Khi bạn tạo một công việc gắn nhãn, bạn có thể chỉ định một trong các sự kết hợp sau đây của các giai đoạn cho công việc: (1) Giai đoạn gắn nhãn. (2) Giai đoạn gắn nhãn và review. (3) Giai đoạn gắn nhãn và xác nhận. (4) Giai đoạn gắn nhãn, xem xét và xác nhận. Danh sách sau đây mô tả các hoạt động trong mỗi giai đoạn:
○ Gắn nhãn: Trên trang công việc gắn nhãn trong bảng điều khiển iTAG, một công nhân gắn nhãn nhận một gói công việc. Sau đó, công nhân gắn nhãn các dữ liệu trong gói công việc và nộp gói công việc.
○ Xem xét: Trên trang kiểm tra chất lượng trong bảng điều khiển iTAG, một công nhân gắn nhãn nhận một gói công việc có dữ liệu được gắn nhãn. Sau đó, công nhân gắn nhãn có thể xem xét, chỉnh sửa hoặc từ chối kết quả gắn nhãn.
○ Xác nhận: Trên trang công việc chấp nhận trong bảng điều khiển iTAG, người cần kết quả gắn nhãn nhận một gói công việc, xem xét kết quả gắn nhãn trong gói công việc và sau đó chấp nhận hoặc từ chối gói công việc.

  • Bước 3: Xử lý các công việc gắn nhãn
    Hoàn thành công việc gắn nhãn bằng cách tuân theo các giai đoạn được chỉ định. Dữ liệu đã được gắn nhãn.
  • Bước 4: Xuất kết quả gắn nhãn
    Xuất kết quả gắn nhãn vào bucket OSS mà bạn chỉ định. Các kết quả này sẽ được sử dụng để huấn luyện các mô hình sau này.

Lưu ý: Để thực hiện gắn nhã dữ liệu với iTAG, dữ liệu đầu vào của bạn cần ở định dạng .manifest; dữ liệu gắn nhãn đầu ra cũng được xuất cùng định dạng.

3) Hướng dẫn thực hiện task gắn nhãn dữ liệu với PAI-iTAG
Đầu tiên, truy cập vào Workplace PAI của bạn, sau đó chọn iTAG để vào trang làm việc của iTAG. Chọn Create Task để bắt đầu set up task gắn nhãn dữ liệu của bạn.
Screen_Shot_2023_09_15_at_13_48_26

Màn hình thiết lập các thông số sẽ hiện ra để bạn có thể chọn cho task gắn nhãn của mình. Ở phần đầu tiên, bạn sẽ chọn Dữ liệu (dataset) và các Template có sẵn hoặc dùng Template của riêng bạn.
Screen_Shot_2023_09_15_at_13_49_12
Trong bài viết này, chúng tôi sẽ sử dụng Template có sẵn của iTAG với các thông số mẫu như sau:
Screen_Shot_2023_09_15_at_14_30_21
Screen_Shot_2023_09_15_at_14_31_20
Screen_Shot_2023_09_15_at_14_32_08
Screen_Shot_2023_09_15_at_14_32_41

Sau khi hoàn thành, nhấn Next để sang phần Adjust Review.

Tại phần Adjust Review, bạn có thể xem lại thông tin thiết lập của (các) label của mình. Nếu không cần thay đổi gì, bạn có thể chọn Next.

Tại phần Intelligent Labelling Configuration, đối với các task cơ bản, bạn có thể chọn bỏ qua phần này. Chọn Next để đến tab 4. Distribute Task.

Tại phần Distrubute Task, bạn có thể cấu hình cho các phần/package trong task label của mình.

Screen_Shot_2023_09_15_at_14_44_30
Screen_Shot_2023_09_15_at_14_45_08

Nhấn OK để hoàn tất. Task gắn nhãn của bạn đã được tạo trên PAI-iTAG.

Sau khi tạo một task gắn nhãn trên iTAG, bạn có thể thực hiện một số thao tác liên quan với task của mình.

Screen_Shot_2023_09_15_at_14_46_16
(1) Go to the iTAG Page: vào iTAG Console, tại đây bạn có thể thực hiện các thao tác process, review, accept các labelling job.
(2) Task Status: Trạng thái của task
(3) Subtask Details: Các thông tin của các sub-task
(4) Other jobs: Một số thao tác khác với tasks như public, copy, delelte
(5) Export Labelling
(6) Obtain Data Record

0 0 0
Share on

Alibaba Cloud Vietnam

50 posts | 7 followers

You may also like

Comments