ラベル付けジョブを作成するときは、データセットを選択する必要があります。 このトピックでは、ラベル付けジョブのデータセットを作成する方法と、データセットのフォーマット要件について説明します。
背景情報
iTAGを使用してラベル付けジョブを作成する前に、データセットとしてラベル付けするファイルを作成する必要があります。 AIプラットフォームのiTAG (PAI) では、共通テンプレートまたはカスタムテンプレートを使用してラベル付けジョブを作成できます。 ラベリングジョブのデータ準備とデータセット作成方法は、ラベリングジョブの作成に使用されるテンプレートによって異なります。
共通テンプレート
iTAGには、画像、テキスト、ビデオ、オーディオなどの一般的なテンプレートが用意されています。 共通のテンプレートを使用するラベル付けジョブのデータセットの作成方法とデータセットのフォーマット要件の詳細については、「テキストデータセットの作成」および「イメージデータセット、ビデオデータセット、またはオーディオデータセットの作成」をご参照ください。
カスタムテンプレート
カスタムテンプレートを使用すると、データに柔軟にラベルを付けることができます。 たとえば、ラベリングジョブで画像やテキストなどの複数の種類のサンプルにラベルを付けることができます。 カスタムテンプレートを使用するラベル付けジョブのデータセットを作成する方法と、データセットの形式要件の詳細については、「カスタムデータセットの作成」をご参照ください。
テキストデータセットの作成
項目 | 方法1: Alibaba Cloudストレージサービスに保存されているデータの使用 | 方法2: オンプレミスマシンからデータをアップロード |
手順 | を作成します。Create a. マニフェストまたは. txtファイル形式の要件に基づいて、オンプレミスマシンでファイルを作成します。 アップロード. マニフェストまたは. txtOSSに作成したファイル。 詳細については、「簡易アップロード」をご参照ください。 Alibaba Cloudストレージサービスに保存されているデータに基づいてデータセットを作成します。 詳細については、「Alibaba Cloudストレージサービスに保存されているデータに基づくデータセットの作成」をご参照ください。
| を作成します。Create a. csvまたは. xlsxファイル形式の要件に基づいて、オンプレミスマシンでファイルを作成します。 [iTAG] ページに移動します。 PAIコンソールにログインします。 左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、管理するワークスペースの名前をクリックします。 表示されるページの左側のナビゲーションウィンドウで、[データの準備] > [iTAG] を選択します。
iTAGページで、[タスクセンターに移動] または [管理ページに移動] をクリックします。 表示されるページで、[データ管理] タブをクリックします。 [データ管理] タブの右上隅にある [元のデータセットの作成] をクリックします。 [元のデータセットの作成] ダイアログボックスで、パラメーターを設定します。 [データのインポート] で [ローカルアップロード] を選択します。 [Import Format] で [File] を選択します。 OSSバケットおよびOSSファイルパスパラメーターを設定します。 クリックファイルのアップロードを選択し、. csvまたは. xlsx作成したファイル。
[作成] をクリックします。
|
ファイル名拡張子 | A. マニフェストまたは. txtファイルを作成します。 | A. csvまたは. xlsxファイルを作成します。 |
ファイル形式 | {"data":{"source":"text sample 1"}}
{"data":{"source":"text sample 2"}}
{"data":{"source":"text sample 3"}}
source は、ラベル付けするサンプルコンテンツを示します。 source の値を、ラベル付けする関連テキストコンテンツに置き換える必要があります。
| の列. csvまたは. xlsxファイルには、ラベルを付けるテキストコンテンツまたは画像のURLを指定できます。 |
ファイルデモ | textDemo1.manifest | textDemo2.csv |
イメージデータセット、ビデオデータセット、またはオーディオデータセットの作成
ここでは、画像データセットの作成方法について説明します。 ビデオデータセットまたはオーディオデータセットを作成する手順は、画像データセットを作成する手順と同じです。
項目 | 方法1: フォルダをスキャン | 方法2: オンプレミスマシンからデータをアップロード |
手順 | ラベル付けするイメージファイルをOSSバケットにアップロードし、OSSバケットのパスを取得します。 詳細は、「簡易アップロード (Simple upload)」をご参照ください。 フォルダーをスキャンしてデータセットを作成します。 A. マニフェストファイルが自動的に生成されます。 詳細については、「データセットの作成と管理」をご参照ください。
| オンプレミスのコンピューターに、イメージファイルを含むフォルダーを作成します。 [iTAG] ページに移動します。 PAIコンソールにログインします。 左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、管理するワークスペースの名前をクリックします。 表示されるページの左側のナビゲーションウィンドウで、[データの準備] > [iTAG] を選択します。
iTAGページで、[タスクセンターに移動] または [管理ページに移動] をクリックします。 表示されるページで、[データ管理] タブをクリックします。 [データ管理] タブの右上隅にある [元のデータセットの作成] をクリックします。 [元のデータセットの作成] ダイアログボックスで、パラメーターを設定します。 [データのインポート] で [ローカルアップロード] を選択します。 [Import Format] の [Folder] を選択します。 OSSバケットおよびOSSファイルパスパラメーターを設定します。 [フォルダのアップロード] をクリックして、作成したフォルダをアップロードします。
[作成] をクリックします。
|
ファイルの内容 | {"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg"}}
source は、ラベル付けするサンプルコンテンツを示します。 source の値をOSSバケットのパスに置き換える必要があります。
|
ファイルデモ | |
カスタムデータセットの作成
項目 | Alibaba Cloudストレージサービスに保存されているデータの使用 |
手順 | を作成します。Create a. マニフェストまたは. txtファイル形式の要件に基づいて、オンプレミスマシンでファイルを作成します。 アップロード. マニフェストまたは. txtOSSに作成したファイル。 詳細については、「簡易アップロード」をご参照ください。 Alibaba Cloudストレージサービスに保存されているデータに基づいてデータセットを作成します。 詳細については、「Alibaba Cloudストレージサービスに保存されているデータに基づくデータセットの作成」をご参照ください。
|
ファイル名拡張子 | A. マニフェストまたは. txtファイルを作成します。 |
ファイル形式 | {"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg","text":"Jack Ma established Alibaba Group in an apartment in Hangzhou with 18 founders. The first website of Alibaba Group is Alibaba.com, which is an English website that focuses on the global wholesale trade market."}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg","text":"Alibaba Group held the first West Lake Cybersecurity Conference. During the conference, commercial and opinion leaders of the Internet industry came together to discuss major issues of the industry."}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg","text":"Alibaba Group raised USD 82 million from multiple investment agencies. This event became the largest private equity financing in the China Internet industry at that time."}}
各行の先頭の「データ」 は、ラベリングジョブを示す。 ラベリングジョブでは、複数のタイプのサンプルを確認できます。 サンプル名はコンマ (,) で区切ります。 次のサンプルコードは、ラベル付けジョブで画像とテキストがチェックされることを示しています。 サンプル画像の格納パスはoss:// ****.oss url 01 です。 サンプルテキストはtext sample1 です。 {"data":{"picture_url":"oss://****.oss url 01","text":"text sample1"}}
|
ファイルデモ | multiModal.manifest |
次のステップ
データセットを作成した後、データセットに基づいてラベル付けジョブを作成できます。 詳細については、「ラベリングジョブの作成」をご参照ください。