機密データ識別タスクの表示 - Data Security Center - Alibaba Cloud ドキュメントセンター

Data Security Center (DSC) は、承認された資産内の機密データ識別タスクを管理し、機密データを識別および分類できるデータインサイト機能を提供します。識別結果には、機密データの場所、機密データの種類、および機密レベルが含まれます。これにより、資産へのアクセス許可を管理してデータセキュリティを向上させることができます。このトピックでは、識別タスクを使用して機密データを識別する方法について説明します。

識別タスクの説明

識別タスクは、識別テンプレート内の識別モデルを使用して接続されているデータ資産をスキャンし、機密データを識別および分類します。識別テンプレートの使用方法の詳細については、「識別テンプレートの表示と構成」をご参照ください。

識別タスクの種類

DSC は、既定の識別タスクとカスタム識別タスクを提供します。

デフォルトの識別タスク

承認が完了すると、DSC は、メイン識別テンプレート共通識別テンプレートメイン識別テンプレート共通識別テンプレート識別テンプレートを使用するとを使用して、各資産インスタンスの識別タスクを作成します。このタスクは、デフォルトの識別タスクと呼ばれます。との詳細については、「」をご参照ください。

DSC にデータ資産へのアクセスを承認する方法の詳細については、「資産の承認」をご参照ください。次の表は、デフォルトの識別タスクに関する情報を示しています。

構成項目	説明
識別テンプレート	デフォルトの識別タスクは、メイン識別テンプレート共通識別テンプレートとを使用します。設定を変更することはできません。メイン識別テンプレート: 組み込みの業界テンプレート (インターネット業界の分類テンプレートや車載ネットワーク (IoV) 業界の分類テンプレートなど) 、またはカスタム識別テンプレートをメイン識別テンプレートとして指定できます。共通識別テンプレート: このテンプレートは、中国国家標準化管理委員会が発行した GB/T 35273-2020 情報セキュリティ技術 - 個人情報セキュリティ仕様に準拠して、個人情報のセキュリティとプライバシー権を保護するために使用されます。共通識別テンプレートは、企業や組織が個人情報の管理とリスク制御を効果的に実施するのに役立ちます。
スキャンサイクル (デフォルト)	[承認管理] タブでデータベース、Object Storage Service (OSS) バケット、またはログストアに接続すると、システムは自動的にデフォルトの識別タスクを作成します。 [承認管理] ページで [接続] をクリックし、[データベース資産をすぐにスキャンしてデータを識別する。] を選択すると、DSC はすぐにデフォルトの識別タスクを実行します。 [承認管理] ページで [接続] をクリックし、[データベース資産をすぐにスキャンしてデータを識別する。] の選択を解除した場合は、デフォルトのデータ識別タスクを手動で実行する必要があります。タスクを実行するには、[データインサイト] > > [タスク] ページに移動します。[識別タスク] タブで、[デフォルトのタスク] をクリックし、タスクを見つけて、[再スキャン] をクリックします。注データベースのアカウントとパスワードを使用してデータベースに接続すると、システムは自動的にデフォルトの識別タスクを作成します。また、システムは翌日以降、毎朝スキャン操作を実行します。 2 回のスキャンの間隔は少なくとも 24 時間です。
スキャン範囲	承認されたすべての資産について、次の項目に注意してください。データベースと OSS 資産: 承認されたデータ資産のすべてのデータが最初のスキャン中にスキャンされ、後続のスキャン中には承認されたデータ資産の増分データのみがスキャンされます。 Simple Log Service 資産: 各スキャンの際に、スキャンが実行された時刻に基づいて、前日の 00:00 から 24:00 までの間に保存された承認済みデータ資産のすべてのデータがスキャンされます。より多くのデータをスキャンする場合は、カスタム識別タスクを作成し、スキャンの範囲を指定できます。詳細については、「*カスタム識別タスクの作成*」をご参照ください。メイン識別テンプレートを変更しても、システムはすぐにデータをスキャンしません。新しい識別テンプレートは、後続のデフォルトの識別タスクの実行で使用されます。

カスタム識別タスク

有効な識別テンプレートを使用して、特定のデータ資産をスキャンするカスタム識別タスクを作成できます。無効になっている識別テンプレートを使用するには、テンプレートを有効にする必要があります。テンプレートの作成方法の詳細については、「識別テンプレートの表示と構成」をご参照ください。

概要

スキャン速度

次の内容は、データ資産のスキャン速度について説明しています。スキャン速度は参考値です。

ApsaraDB RDS for MySQL、ApsaraDB RDS for PostgreSQL、または PolarDB に保存されている構造化データ、あるいは Tablestore や MaxCompute などのビッグデータシステムに保存されているデータ: 1,000 を超えるテーブルを含む大規模データベースは、1 分あたり 1,000 列の速度でスキャンされます。
OSS または Simple Log Service に保存されている非構造化データ: 1 TB のデータをスキャンするのに必要な時間は約 6 時間です。

スキャン制限

データベース内の過度に大きなファイルやテーブルが全体的なスキャン進行状況を損なうのを防ぐため、DSC はスキャンできるファイルやフィールドのサイズに次の制限を設けています。

構造化データとビッグデータシステムに保存されているデータ: テーブル内の最初の 200 行のデータがサンプリングされます。サンプリングされたデータの各フィールドの各行の最初の 10 KB のデータのみがスキャンされます。
OSS または Simple Log Service に保存されている非構造化データ:
- ファイルサイズが 200 MB を超える場合、ファイルはスキャンされません。それ以外の場合は、ファイルはスキャンされます。
- OSS 内の圧縮ファイルまたはアーカイブファイルの場合、最初の 1,000 個の子ファイルのみがスキャンされます。
- 800 種類以上の OSS ファイルをスキャンできます: テキスト、オフィスファイル、画像、デザインファイル、コードファイル、データファイル、バイナリファイル、署名検証用ファイル、アーカイブファイル、アプリケーションファイル、オーディオファイル、ビデオファイル、化学構造ファイル。詳細については、「サポートされている OSS ファイル」をご参照ください。

制限の詳細については、「制限」をご参照ください。

スキャンされたデータオブジェクト

データベース資産: <インスタンス>/<データベース>/<テーブル名>。各データテーブルはデータオブジェクトとして使用されます。
ビッグデータ: <インスタンス>/<テーブル名>。各データテーブルはデータオブジェクトとして使用されます。
OSS: <OSSバケット>/<オブジェクト名>。各オブジェクトはデータオブジェクトとして使用されます。
Simple Log Service: <Simple Log Service プロジェクト>/<ログストア>/<時間間隔>。各 5 分間 が時間間隔と見なされます。各時間間隔に格納されているデータは、データオブジェクトとして使用されます。

スキャン結果

識別タスクのスキャン結果の機密レベルは、タスクで使用される識別テンプレートでヒットした識別モデルに基づいて決定されます。到達した最高の機密レベルが優先されます。DSC は、機密データを S1 から S10 に分類します。数字が大きいほど、機密レベルが高いことを示します。N/A は、機密データが識別されていないことを示します。

識別モデルで使用可能な機密レベルの範囲は、関連付けられている識別テンプレートに基づいています。詳細については、「識別テンプレートの機密レベルを構成する」をご参照ください。

推奨事項

項目	説明
スキャン範囲と優先順位の確認	大量のデータを分類する必要があるものの、すべてのデータをすぐにスキャンできない場合は、最初にどのデータ資産のスキャン優先順位が高いかを評価することをお勧めします。頻繁にアクセス、更新、または不明な操作の対象となるデータなど、潜在的なリスクの高いデータ資産は、最初にスキャンする必要があります。
初回スキャンの範囲の指定	最適なスキャンパフォーマンスを実現するために、スキャン範囲を指定できます。たとえば、初回スキャンの範囲をデータベース、OSSバケット、または複数のファイルに指定できます。このようにして、使用する識別機能と機能ルールを決定し、重要な機密データを識別できます。すべての識別機能を使用しない場合は、すべての識別機能を有効にしないことをお勧めします。誤検知または無効な識別結果は、リスク評価の難易度を高める可能性があります。たとえば、特定のケースで日付、時刻、URLなどの特定のデータ型に対してすべての識別機能を有効にすると、大量のデータが一致することになります。これは、大規模なデータスキャンには適していない可能性があります。構造化データをスキャンするには、十分なデータがサンプリングされていることを確認してください。そうでない場合、スキャン結果は検出されません。
タスク開始時刻の指定	データ資産の更新頻度に基づいてタスクを毎日、毎週、または毎月自動的に実行するには、識別タスクの開始時刻を指定することをお勧めします。このようにして、前回のスキャンからのデータ資産の変更を検出し、機密データをできるだけ早く識別できます。定期的なスキャンを実行して、スキャン結果の傾向や異常値を特定できます。

前提条件

DSC が必要なデータ資産にアクセスして識別することを承認済みであること。詳細については、「資産の承認」をご参照ください。

デフォルトの識別タスクの管理

デフォルトの識別タスクの表示

DSCコンソールにログオンします。
左側のナビゲーションペインで、分類と格付け > タスク を選択します。
識別タスクタスク ページの 既定のタスク タブで、をクリックします。
識別タスクの監視 ページで、デフォルトの識別タスクリストを表示します。
デフォルトの識別タスクに対して、次の操作を実行できます。
- 再スキャン: 識別モデルがアップグレードされた場合、メインの識別テンプレートを変更した場合、またはデータベースが更新された場合は、再スキャンを開始して、できるだけ早くスキャン結果を取得します。
- 一時停止: データベースで例外が発生した場合は、必要なデータ資産を見つけて、アクション 列の 一時停止 をクリックして、実行中のデフォルトの識別タスクを一時停止します。
- 終了: デフォルトの識別タスクを終了すると、システムは実行中のタスクを完了しますが、後続の操作ではタスクを実行しなくなります。
- 有効化: 終了したデフォルトの識別タスクを有効にすると、タスクが再開されます。
説明
デフォルトの識別タスクは削除できません。

デフォルトの識別タスクのスキャン設定の変更

デフォルトの識別タスクの定期スキャンを設定できます。スキャンサイクルは、データベースのデータ更新頻度とほぼ同じ値に設定することをお勧めします。これにより、変更されたデータ内の機密情報を検出できます。最小スキャンサイクルは 1 日です。

DSCコンソールにログオンします。
左側のナビゲーションペインで、分類と格付け > タスク を選択します。
タスク ページの 識別タスク タブで、デフォルトタスク をクリックします。
識別タスクの監視 ページで、スキャンサイクルを指定するデータ資産を見つけて、スキャン設定 をクリックします。
スキャン設定 ダイアログボックスで、スキャンサイクルとスキャン開始時刻を指定し、OK をクリックします。
重要
- スキャン操作がデータベースに及ぼす影響を最小限に抑えるために、スキャン開始時刻をオフピーク時に設定することをお勧めします。
- 識別タスクの実行中は、データベースまたはサービスの状態を監視して、CPU使用率とメモリ使用量の異常な急上昇を確認することをお勧めします。タスクに関連する例外が発生した場合は、タスクを一時停止または終了することをお勧めします。スキャンタスクを停止するには、タスク ページに移動し、必要なデータ資産を見つけて、[アクション] 列の 一時停止 または終了をクリックします。

カスタム識別タスクの管理

カスタム識別タスクを作成すると、システムは自動的に有効な識別テンプレートを使用して指定された資産をスキャンします。メインの識別テンプレートではなく、有効な識別テンプレートを使用して特定のデータベースをスキャンするには、カスタム識別タスクを作成します。

カスタム識別タスクの作成

DSCコンソールにログオンします。
左側のナビゲーションペインで、[分類と格付け] > [タスク] を選択します。
[識別タスク] タブの [タスク] ページで、[作成] をクリックします。

[作成] パネルで、パラメーターを設定し、[次へ] をクリックします。設定が完了したら、[OK] をクリックします。

カテゴリ	パラメーター	説明
基本情報	タスク名	タスク名を入力します。
	スキャンタイプ	タスクの開始時刻を選択します。有効な値：即時スキャン：識別タスクの作成後、すぐにデータをスキャンします。定期スキャン：識別タスクの作成後、定期的にデータをスキャンします。[スキャン頻度] と [スキャン時間] ドロップダウンリストからスキャン頻度とスキャン期間を選択できます。すぐにデータをスキャンする場合は、[今すぐ1回スキャン] を選択します。説明 [スキャン時間] は構造化データに対してのみ有効です。
	範囲	識別タスクのスキャン範囲を選択します。有効な値：グローバルスキャン：現在のAlibaba Cloudアカウント内で接続できるすべての承認済み資産をスキャンします。複数アカウント管理機能を有効にしている場合、資産にはメンバー内で接続できるすべての承認済み資産が含まれます。データドメイン：特定のデータドメイン内の資産をスキャンします。データドメインの詳細については、「データドメインを使用した資産の管理」をご参照ください。資産タイプ：1つ以上の資産タイプの資産をスキャンします。
	識別テンプレート	スキャンに使用する識別テンプレートを選択します。有効な識別テンプレートのみがサポートされています。最大2つの有効な識別テンプレートを選択できます。テンプレートの作成方法の詳細については、「識別テンプレートの表示と設定」をご参照ください。
設定	構造化データの識別範囲	ApsaraDB RDSやPolarDBに格納されているデータなど、構造化データのスキャン範囲を選択します。有効な値：グローバルスキャン：[範囲] パラメーターで指定されたすべての構造化データをスキャンします。スキャン範囲の指定：スキャンするインスタンスとデータベースを選択できます。スキャンする複数のインスタンスを追加するには、[識別範囲の追加] をクリックします。
	非構造化データの識別範囲	OSSの非構造化データの [スキャン範囲] と [スキャン深度] パラメーターを設定します。スキャン範囲：グローバルスキャン：[範囲] パラメーターで指定されたすべての非構造化データ資産をスキャンします。スキャン範囲の指定：スキャンする OSSバケットを選択できます。[範囲] パラメーターで指定された資産のみを選択できます。複数のバケットを選択できます。スキャンするオブジェクトを指定した後、フィルター条件を設定してきめ細かいスキャンを実行できます。たとえば、[プレフィックス]、[ディレクトリ]、または [サフィックス] に対して包含値または除外値を指定できます。スキャン深度：グローバルスキャン：すべてのバケットパスをスキャンします。スキャン深度の指定：指定されたバケットパスのみをスキャンします。パスの深さはスラッシュ（/）で区切られます。有効な値： 1～10 。スキャン深度を 10 以下の整数に設定することをお勧めします。たとえば、スキャン深度を 5 に設定すると、 5 レイヤー以内の OSSバケットパスがスキャンされます。
	Simple Log Service のデータ識別設定	Simple Log Service が [範囲] パラメーターで指定されたデータ資産に含まれている場合のみ、[simple Log Service のデータ識別設定] で [資産範囲] と [時間範囲] パラメーターを表示および設定できます。資産範囲：グローバルスキャン：[範囲] パラメーターで指定されたすべての非構造化データ資産をスキャンします。スキャン範囲の指定：スキャンするプロジェクトとログストアを選択できます。[範囲] パラメーターで指定された資産のみを選択できます。 1 つのプロジェクトと複数のログストアを選択できます。時間範囲：過去 15 分、過去 1 時間、昨日、過去 1 日、過去 7 日、過去 30 日カスタム： 5 分単位でカスタムの時間範囲を指定できます。時間範囲の単位は分です。
その他の設定	タグ付け結果の上書き	古い修正済み機密データを処理する方法を指定します。有効な値：手動タグ付け結果をスキップ：元の修正結果を保持します。この方法を選択することをお勧めします。手動タグ付け結果を上書き：元の修正結果を新しい識別結果で上書きします。
その他の設定	タスクメモ	タスクの説明を入力します。

カスタム識別タスクの変更または削除

[編集]：カスタム識別タスクのすべてのパラメーターを変更できます。
[>] [削除]：不要になったカスタム識別タスクを削除できます。

識別タスクの状態の管理

再スキャン操作の実行

識別モデルをアップグレードするか、データベースを更新した場合、再スキャン操作を実行して、できるだけ早くスキャン結果を取得できます。再スキャン操作では、指定された資産のフルスキャンが実行されます。再スキャン操作を実行すると、フルスキャンがすぐに実行されます。スキャンの開始時刻はオフピーク時に設定することをお勧めします。

再スキャン操作を実行する前に、関連する識別テンプレートが有効になっていることを確認してください。

説明

カスタム識別タスクの [スキャンタイプ] パラメーターを [即時スキャン] に設定した場合、再スキャン操作はサポートされません。

[識別タスク] タブで、再スキャン操作を実行します。
- カスタム識別タスクで再スキャン操作を実行する：タスクリストで、管理するカスタム識別タスクを見つけ、[アクション] 列の [再スキャン] をクリックします。
- デフォルトの識別タスクで再スキャン操作を実行する：[デフォルトタスク] タブをクリックします。次に、必要なデータ資産を見つけ、[アクション] 列の [再スキャン] をクリックします。
タスクの [スキャンステータス] 列でスキャンの進捗状況を表示します。

識別タスクを一時停止または終了する

一時停止：データベースで例外が発生した場合は、必要なカスタム識別タスクを見つけ、[アクション] 列の [一時停止] をクリックします。
終了：この操作は、現在および後続の識別タスクを終了します。デフォルトおよびカスタムの識別タスクを終了できます。

ヒット識別モデルの修正

誤ってタグ付けされた機密データやタグのない機密データを修正するための修正タスクを作成できます。これにより、企業はより正確にデータを管理および保護できます。DSC では、機密データ識別モデルを修正および復元できます。修正タスクを作成するには、次の手順を実行します。

DSC コンソールにログオンします。
左側のナビゲーションペインで、分類と等級付け > タスク を選択します。
タスク ページで、修正タスク タブをクリックします。
左側のナビゲーションペインで、管理するアセットタイプをクリックします。
管理するデータを見つけ、[アクション] 列で [変更] または [再開] をクリックします。次に、表示される指示に従って操作を実行します。最後に、[OK] をクリックします。
復元操作を実行すると、以前の識別モデルが復元されます。

機密データ識別結果の表示

[アセットインサイト] ページと [データディレクトリ] ページで、メインおよび共通の識別テンプレートを使用して検出された最新の機密データを表示できます。詳細については、「機密データ識別結果の表示」をご参照ください。

エクスポートタスクを作成して、メインの識別テンプレートまたはアクティブな識別テンプレートを使用して取得された機密データ識別結果をエクスポートできます。識別テンプレートとデータアセットを指定してエクスポートタスクを作成し、エクスポートされた機密データ識別結果をダウンロードできます。

重要

エクスポートタスクで指定した識別テンプレートとデータアセットは、完了した識別タスクに関連付けられている必要があります。そうでない場合、ダウンロードされた機密データ識別結果は空になります。

エクスポートタスクの作成

エクスポートタスクを作成してエクスポート結果をダウンロードするには、次の手順を実行します。

DSC コンソールにログオンします。
左側のナビゲーションペインで、[分類と格付け] > [タスク] を選択します。
[タスク] ページで、[エクスポートタスク] タブをクリックします。
[エクスポートタスク] タブで、[作成] をクリックします。
エクスポートタスクを設定し、[OK] をクリックします。
1. 作成ページの [基本情報] セクションで、タスク名を入力し、識別テンプレートを選択します。
  有効な識別テンプレートのみを選択できます。
2. 作成ページの [エクスポートディメンション] セクションで、[アセットタイプ] または [アセットインスタンス] を選択します。
  - [アセットタイプ]: エクスポートするアセットタイプを選択します。
  - [アセットインスタンス]: エクスポートするデータを含むインスタンスを選択します。
エクスポートタスクを作成した後、エクスポートタスクリストでタスクのステータスを表示できます。データ量が多いほど、エクスポート期間が長くなります。

機密データ識別結果のダウンロード

タスクの [エクスポートステータス] が [完了] に変わったら、タスクの [アクション] 列の [ダウンロード] をクリックします。

重要

エクスポートが完了したら、3 日以内にエクスポートされたデータをダウンロードしてください。タスクは 3 日後に期限切れになります。この場合、エクスポートされた機密データをダウンロードすることはできません。

Data Security Center:識別タスクを使用して機密データを識別する