MaxCompute プラットフォームは、データのアップロードとダウンロードを実行するための幅広いツールに対応しています。 ほとんどのツールのソースコードは、オープンソースコミュニティの GitHub にあり、データのアップロードとダウンロードが可能です。 シナリオに応じたツールを選択できます。 ツールは、Alibaba Cloud DTplus プロダクトとオープンソース プロダクトの 2 種類に分けられます。 本ページでは、これらのツールについて詳しく説明します。
Alibaba Cloud DTplus プロダクト
- DataWorks のデータ統合
DataWorksのデータ統合(データ同期)は、Alibaba Cloudが提供する安定した、効率的でスケーラブルなデータ同期プラットフォームです。 これは、Alibaba Cloud の異種データストレージ システムで、オフライン同期、リアルタイムの増分データ同期、統合、および交換サービスに対応できるように設計されています。
データ同期タスクは、MaxCompute、RDS (MySQL、SQL Serve、PostgreSQL)、Oracle、FTP、AnalyticDB (ADS)、OSS、Memcache および DRDS のデータ型に対応しています。 詳細は、「Data Integration の概要」をご参照ください。
- MaxCompute コンソール
- コンソールのインストールと基本的な使い方については、「クライアント概要 (Client introduction)」をご参照ください。
- クライアントには、データのアップロードとダウンロード用のバッチ データ トンネル SDK を基盤とした組み込み Tunnel コマンドが実装されています。 詳細は、「Tunnel 基本コマンドの使用方法 (Basic Tunnel command usage) 」 をご参照ください。
注 これは、オープンソースの aliyun-odps-consoleです。 - DTS
DTS (Data Transmission)は、Alibaba Cloud が提供するデータ サービスであり、RDBMS、NoSQL、OLAP などのデータ ソース間のデータ交換に対応しています。 また、データ移行、リアルタイムのデータ サブスクリプション、リアルタイムのデータ同期、およびその他のデータ転送機能を搭載しています。
DTS は、ApsaraDB for RDS と MySQLインスタンスから MaxCompute テーブルへのデータ同期に対応しています。 現在のところ、その他の種類のデータ ソースには対応していません。
オープンソース プロダクト
- Sqoop
Sqoop は、Sqoop 1.4.6 コミュニティに基づいて開発されたツールです。Sqoop には、MySQL やその他のリレーショナル データベースから MaxCompute テーブルへのデータ インポートとエクスポート機能が搭載されています。 HDFS/Hive のデータをMaxCompute テーブルにインポートすることもできます。
注 これは、オープンソースの aliyun-maxcompute-data-collectorsです。 - Kettle
Kettleは、Windows、Unix、または Linux 上で動作する Java ベースのオープンソースの ETL ツールです。 ドラッグアンドドロップ コンポーネントを使用して、データ送信トポロジを簡単に定義できるグラフィック インターフェイスを実装しています。
注 これは、オープンソースのaliyun-maxcompute-data-collectorsです。 - Flume
Apache Flume は、信頼性の高い分散システムであり、膨大な量のログ データを効率的に収集、集約し、さまざまなデータソースから集中データストレージ システムに移行できます。 数多くのソース プラグインとシンク プラグインに対応しています。
Apache Flume のDataHub Sink プラグインを使用すると、リアルタイムでログ データを DataHub にアップロードし、MaxCompute テーブルにアーカイブできます。
注 これは、オープンソースのaliyun-maxcompute-data-collectorsです。 - Fluentd
Fluentd は、さまざまなソースからログ (アプリケーション ログ、システム ログ、アクセスログなど) を収集するために使用されるオープンソースのソフトウェア プロダクトです。 MySQL、Oracle、MongoDB、Hadoop、Treasure Data など、さまざまなデータ プロセッサにログ データをフィルタリングして格納するためのプラグインを選択できます。
Fluentd のDataHub プラグインを使用すると、リアルタイムでログデータを DataHub にアップロードし、MaxCompute テーブルにアーカイブできます。
- LogStash
Logstash はオープンソースのログ収集と処理のフレームワークです。 logstash-output-datahub プラグインを使用すると、データをDataHubにインポートできます。 データの収集と送信を実行するためのツールの設定は簡単です。 MaxCompute や StreamCompute と一緒に使用すると、データ収集から分析までが可能なオールインワンのストリーミング データ ソリューションを簡単に作成できます。
Logstash のDataHub プラグインを使用すると、リアルタイムでデータを DataHub にアップロードし、MaxCompute テーブルにアーカイブできます。
- OGG
OGGのDataHub プラグインを使用すると、Oracle データベースのデータをリアルタイムで DataHub に段階的に同期させ、MaxCompute テーブルにデータをアーカイブできます。
注 これは、オープンソースのaliyun-maxcompute-data-collectorsです。