Embulk(エンバルク)とは、プラグ可能なマルチソースバルクデータローダーです。バルク処理に特化したプラグインベースのデータローダーで、大規模データセットのバルク転送を実施します。「データベース」「DWH」「NoSQL」「ファイル形式」「クラウドデータストア」などのデータ転送を強力にサポートします。

オープンソースのログ管理/Embulkとは

Embulk(エンバルク)とは、プラグ可能なマルチソースバルクデータローダーです。バルク処理に特化したプラグインベースのデータローダーで、大規模データセットのバルク転送を実施します。「データベース」「DWH」「NoSQL」「ファイル形式」「クラウドデータストア」などのデータ転送を強力にサポートします。

概要

Embulk(エンバルク)とは、プラグ可能なマルチソースバルクデータローダーです。バルク処理に特化したプラグインベースのデータローダーで、大規模データセットのバルク転送を実施します。「データベース」「DWH」「NoSQL」「ファイル形式」「クラウドデータストア」などのデータ転送を強力にサポートします。

基本説明

Embulk は、ストリーミング型ログ収集フレームワーク「fluentd」のバッチ版のようなデータ転送ツールです。特に、「1発実行」「日次バッチ処理」「定期バッチ処理」などのバルク処理用途に向いています。

転送元の「ファイル」「データベース」などからデータを吸い出し、転送先の「ストレージ」「データベース」などにロードするためのシンプルな仕組みを提供します。

プラグイン型アーキテクチャを採用しており、RubyやJavaでシンプルなコードを書くことで、さまざまな「データベース」「ファイルフォーマット」「ストレージ」に対して柔軟に対応できます。

ポイント

・さまざまなプラグインによる入力と出力の組み合わせ
・MavenおよびRubygemリポジトリでリリースされたプラグインに対応
・入力ファイル形式の自動推測機能
・並列実行機能---ビッグデータセット処理
・トランザクション制御機能---オールオアナッシングを保証

経緯

・2015年1月:初版リリース

ユースケース例

「CSVファイル」から「Elasticsearch + Kibana5」へのスケジュールされた一括データ読み込み

→embulk.org →recipes →scheduled-csv-load-to-elasticsearch-kibana5

オフィシャルサイト情報

■オフィシャルサイト

→embulk.org

■GitHub

→github.com →embulk/embulk

■主要開発元

Embulkは、The Embulk projectが中心となり開発が進められています。

■ライセンス情報

Embulkのライセンスは「Apache License Version 2.0」です。

詳細について、こちらを参照ください。
→github.com →embulk/embulk →LICENSE

■クイックスタート

「Linux & macOS用」と「Windows用」のコマンドが記述されています。

→embulk.org [→Quick Start]

同様製品

同様な機能を提供する製品として、次のようなものがあります。

オープンソース製品:「Fluentd」「Logstash」など。

Embulk最新TOPICS

最新情報はありません。

Embulk最新CLOSEUPコラム

無料資料プレゼント

ポストコロナ時代にデータセンターはどう活用すべきか

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

稼働中のシステム変更時の課題と対策~影響調査が大変、ちょっとしたミスが不具合につながる~

クラウド活用だけで終われないBCP - ハイブリッドクラウド×AIOps -

「一人情シス」を助けるAWSのはじめ方(移行・セキュリティ・運用編)

  • オープソース書籍(サイド)
  • OSSNEWSに広告を掲載しませんか?

facebook

twitter