Embulkは柔軟なプラグイン構造による機能拡張が可能です。
「データ入力」「データ加工」「データ出力」などの機能別タイプに分かれています。
Embulkは、1回の処理を複数のタスクに分割することで並列実行する仕組みを備えているため、大規模データの高速バルク処理が可能です。
Embulkは、失敗したトランザクションの再開機能をサポートしています。
トランザクションが失敗した場合、その状態をYAMLファイルに保存します。同じコマンドを使用してトランザクションを再試行できます。
トランザクションを再開しない場合は、「embulk cleanupサブコマンド」を使用して中間データを削除できます。
Embulkでは、YAMLファイルを使用して一括データ読み込み処理を定義します。
Liquidテンプレートエンジンを使用して、構成ファイルに環境変数を埋め込むことができます。
また、別の構成ファイルを含めることもできます。
→embulk.org → docs →embulk-configuration-file-format
入力プラグインオプションを指定します。
・レコードベース---MySQL、DynamoDBなど
・ファイルベース---S3、HTTPなど
入力がファイルベースの場合、ファイル形式(csv、jsonなど)を解析するためにパーサープラグインを指定します。
入力がファイルベースの場合、圧縮または暗号化をデコードするためにデコーダプラグインを指定します。
・gzip
・bzip2
・zip
・tar.gz など
出力プラグインオプションを指定します。
・レコードベース---Oracle、Elasticsearch など
・ファイルベース---Googleクラウドストレージ など
出力がファイルベースの場合、特定ファイル形式(CSV、JSONなど)にフォーマットするため、フォーマッタープラグインを指定します。
出力がファイルベースの場合、圧縮または暗号化(gzipやbzip2など)をエンコードするために、エンコーダプラグインを指定します。
フィルタリングプラグインを指定できます。
並列処理を制御するためのエグゼキュータプラグインを指定できます。
OSS×Cloud ACCESS RANKING