Embulk(エンバルク)とは、プラグ可能なマルチソースバルクデータローダーです。バルク処理に特化したプラグインベースのデータローダーで、大規模データセットのバルク転送を実施します。「データベース」「DWH」「NoSQL」「ファイル形式」「クラウドデータストア」などのデータ転送を強力にサポートします。
Embulk は、ストリーミング型ログ収集フレームワーク「fluentd」のバッチ版のようなデータ転送ツールです。特に、「1発実行」「日次バッチ処理」「定期バッチ処理」などのバルク処理用途に向いています。
転送元の「ファイル」「データベース」などからデータを吸い出し、転送先の「ストレージ」「データベース」などにロードするためのシンプルな仕組みを提供します。
プラグイン型アーキテクチャを採用しており、RubyやJavaでシンプルなコードを書くことで、さまざまな「データベース」「ファイルフォーマット」「ストレージ」に対して柔軟に対応できます。
・さまざまなプラグインによる入力と出力の組み合わせ
・MavenおよびRubygemリポジトリでリリースされたプラグインに対応
・入力ファイル形式の自動推測機能
・並列実行機能---ビッグデータセット処理
・トランザクション制御機能---オールオアナッシングを保証
・2015年1月:初版リリース
「CSVファイル」から「Elasticsearch + Kibana5」へのスケジュールされた一括データ読み込み
→embulk.org →recipes →scheduled-csv-load-to-elasticsearch-kibana5
Embulkは、The Embulk projectが中心となり開発が進められています。
Embulkのライセンスは「Apache License Version 2.0」です。
詳細について、こちらを参照ください。
→github.com →embulk/embulk →LICENSE
「Linux & macOS用」と「Windows用」のコマンドが記述されています。
同様な機能を提供する製品として、次のようなものがあります。
OSS×Cloud ACCESS RANKING