OSS-HDFS (JindoFS) は、クラウドネイティブのデータレイクストレージ機能です。 OSS-HDFSは、メタデータの集中管理機能を提供し、Hadoop分散ファイルシステム (HDFS) APIと完全に互換性があります。 OSS-HDFSを使用して、ビッグデータおよびAI分野のデータレイクベースのコンピューティングシナリオでデータを管理できます。
使用上の注意
バケットのOSS-HDFSを有効にすると、OSS-HDFSを使用して書き込まれたデータがに保存されます。OSS-HDFSのdlsdata/
ディレクトリ。 OSS-HDFSサービスの可用性を確保したり、データの損失を防ぐために、で書き込み操作を実行しないでください。dlsdata/
ディレクトリまたはOSS-HDFSサービスでサポートされていないメソッドを使用してディレクトリ内のオブジェクトにアクセスします。 たとえば、ディレクトリの名前変更、ディレクトリの削除、ディレクトリ内のオブジェクトの削除などの書き込み操作を実行しないでください。
OSS-HDFSを有効にすると、他のObject Storage Service (OSS) 機能を使用してデータをに書き込むと、データの損失、データの汚染、データのアクセス不能などのリスクが発生する可能性があります。dlsdata/
ディレクトリ。 詳細については、「使用状況のメモ」をご参照ください。
課金ルール
メタデータ管理料金
OSS-HDFSを使用すると、オブジェクトのメタデータ管理料金が課金されます。 ただし、この請求可能なアイテムについては課金されません。
データストレージ料金
OSS-HDFSを使用すると、データブロックはObjects Storage Service (OSS) に保存されます。 したがって、OSSの課金方法は、OSS-HDFSのデータブロックに適用されます。 詳細については、「課金の概要」をご参照ください。
メリット
既存のHadoopおよびSparkアプリケーションを変更する必要なく、OSS-HDFSを使用できます。 HDFSでデータを管理する場合と同様の方法で、OSS-HDFSを簡単に設定してデータにアクセスし、管理することができます。 また、無制限のストレージ容量、柔軟なスケーラビリティ、高いセキュリティ、信頼性、可用性など、OSSの特性を活用することもできます。
クラウドネイティブデータレイクはOSS-HDFSに基づいています。 OSS-HDFSを使用して、エクサバイト単位のデータを分析し、数億のオブジェクトを管理し、テラバイト単位のスループットを取得できます。 OSS-HDFSは、ビッグデータストレージの要件を満たすために、フラットな名前空間機能と階層的な名前空間機能を提供します。 階層的な名前空間機能を使用して、階層的なディレクトリ構造でオブジェクトを管理できます。 OSS-HDFSは、ストレージ構造をフラット名前空間と階層名前空間の間で自動的に変換して、オブジェクトメタデータを一元管理できるようにします。 Hadoopユーザーは、オブジェクトの形式をコピーしたり変換したりすることなく、OSS-HDFSでオブジェクトにアクセスできます。 これにより、ジョブのパフォーマンスが向上し、メンテナンスコストが削減されます。
機能
機能 | 説明 | 参考資料 |
スナップショット (トライアル) | スナップショットコマンドを使用して作成したスナップショットを使用して、誤って削除されたデータを復元したり、エラー発生時にサービスの継続性を確保するためにデータをバックアップしたりできます。 OSS-HDFSのスナップショット機能は、HDFSのスナップショット機能と同じ方法で使用できます。 OSS-HDFSのスナップショット機能は、ディレクトリレベルの操作をサポートします。 | |
ルートポリシー | RootPolicyを使用して、OSS-HDFSのカスタムプレフィックスを設定できます。 これにより、元のアクセスプレフィックス | |
ProxyUser | ProxyUserコマンドは、他のユーザーに代わって機密データにアクセスするなどの操作をユーザーに許可するために使用されます。 | |
UserGroupsMapping | UserGroupsMappingコマンドは、ユーザーとユーザーグループ間のマッピングを管理するために使用します。 |
シナリオ
OSS-HDFSは、ビッグデータおよびAI分野のコンピューティングシナリオに適しています。 次のシナリオでOSS-HDFSを使用できます。
HiveとSparkによるオフラインデータウェアハウジング
OSS-HDFSはファイルとディレクトリの操作をサポートし、ファイルとディレクトリのアクセス許可を管理できます。 OSS-HDFSは、ディレクトリのアトミック操作とミリ秒単位の名前変更操作もサポートしています。 OSS-HDFSは、setTimesを使用した時間設定、拡張属性 (XAttrs) 、ACL、ローカルキャッシュへの高速アクセスなどの機能をサポートしています。 これにより、OSS-HDFSはHiveとSparkを使用したオフラインデータウェアハウジングに適しています。 抽出、変換、読み込み (ETL) 機能を使用してデータを処理すると、OSS-HDFSはOSS標準バケットよりも優れたパフォーマンスを提供します。
OLAP
OSS-HDFSは、append、truncate、flush、pwriteなどの基本的なファイル関連の操作をサポートしています。 OSS-HDFSはJindoFuseを使用してPOSIXをサポートします。 これにより、オンライン分析処理 (OLAP) にClickHouseを使用すると、オンプレミスのディスクを置き換えて、ストレージをコンピューティングから切り離すことができます。 OSS-HDFSのキャッシングシステムは、操作に必要な時間を短縮し、低コストでパフォーマンスを向上させるのに役立ちます。
HBaseのコンピューティングからのストレージのデカップリング
OSS-HDFSは、ファイルとディレクトリの操作とフラッシュ操作をサポートします。 HDFSの代わりにOSS-HDFSを使用して、HBaseのコンピューティングからストレージを分離できます。 HBaseとOSS標準バケットの組み合わせと比較して、HBaseとOSS-HDFSの組み合わせは、HDFSを使用してWebアプリケーションファイアウォール (WAF) ログを保存するため、より合理化されたサービスアーキテクチャを提供します。 詳細については、「HBaseのストレージバックエンドとしてのOSS-HDFSの使用」をご参照ください。
リアルタイムコンピューティング
OSS-HDFSは、フラッシュ操作と切り捨て操作をサポートします。 HDFSの代わりにOSS-HDFSを使用して、Flinkのリアルタイムコンピューティングシナリオでシンクとチェックポイントを保存できます。
データ移行
新しいクラウドネイティブデータレイクストレージサービスとして、OSS-HDFSはデータセンターのHDFSからAlibaba cloudにデータを移行し、HDFSユーザーのエクスペリエンスを最適化し、スケーラブルで費用対効果の高いストレージサービスを提供します。 Jindo DistCpを使用して、HDFSからOSS-HDFSにデータを移行できます。 データ移行中、HDFSチェックサムを使用してデータの整合性を検証できます。
サポートされるエンジン
エコシステム | エンジン /プラットフォーム | 参考資料 |
オープンソースのエコシステム | Flink | |
Flume | ||
Hadoop | ||
HBase | ||
Hive | ||
Impala | ||
Presto | ||
Spark | ||
Alibaba Cloudエコシステム | EMR | EMR HiveまたはSparkでのOSS-HDFSの使用 |
Flink | ||
Flume | ||
HBase | ||
Hive | ||
Impala | ||
Presto | ||
Spark | ||
Sqoop | EMRクラスターでApache Sqoopを使用して、OSS-HDFSに保存されているデータへの読み取りおよび書き込みアクセスを実装します |