「Embulk」の主な特徴として、「プラグインアーキテクチャ」「並列/分散処理」「トランザクション再開機能」「構成ファイル」について紹介。

「Embulk」の主な特徴

「Embulk」の主な特徴として、「プラグインアーキテクチャ」「並列/分散処理」「トランザクション再開機能」「構成ファイル」について紹介。

プラグインアーキテクチャ

Embulkは柔軟なプラグイン構造による機能拡張が可能です。

「データ入力」「データ加工」「データ出力」などの機能別タイプに分かれています。

並列/分散処理

Embulkは、1回の処理を複数のタスクに分割することで並列実行する仕組みを備えているため、大規模データの高速バルク処理が可能です。

トランザクション再開機能

Embulkは、失敗したトランザクションの再開機能をサポートしています。

トランザクションが失敗した場合、その状態をYAMLファイルに保存します。同じコマンドを使用してトランザクションを再試行できます。

トランザクションを再開しない場合は、「embulk cleanupサブコマンド」を使用して中間データを削除できます。

構成ファイル

■概要

Embulkでは、YAMLファイルを使用して一括データ読み込み処理を定義します。

Liquidテンプレートエンジンを使用して、構成ファイルに環境変数を埋め込むことができます。

また、別の構成ファイルを含めることもできます。

→embulk.org → docs →embulk-configuration-file-format

■「in」セクション

入力プラグインオプションを指定します。

・レコードベース---MySQL、DynamoDBなど
・ファイルベース---S3、HTTPなど

parser

入力がファイルベースの場合、ファイル形式(csv、jsonなど)を解析するためにパーサープラグインを指定します。

decoder

入力がファイルベースの場合、圧縮または暗号化をデコードするためにデコーダプラグインを指定します。

・gzip
・bzip2
・zip
・tar.gz など

■「out」セクション

出力プラグインオプションを指定します。

・レコードベース---Oracle、Elasticsearch など
・ファイルベース---Googleクラウドストレージ など

formatter

出力がファイルベースの場合、特定ファイル形式(CSV、JSONなど)にフォーマットするため、フォーマッタープラグインを指定します。

encoder

出力がファイルベースの場合、圧縮または暗号化(gzipやbzip2など)をエンコードするために、エンコーダプラグインを指定します。

■「filters」セクション

フィルタリングプラグインを指定できます。

■「exec」セクション

並列処理を制御するためのエグゼキュータプラグインを指定できます。

Embulk最新TOPICS

最新情報はありません。

Embulk最新CLOSEUPコラム

イベント情報

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

溢れかえる社内データを整理する工夫 ~ファイルの整理から運用まで~

AI Opsで、AWS運用を自動化する ~1,000ノード以上の監視設定を自動化、障害原因の判断もAIが行う、ワイヤ・アンド・ワイヤレスとDynatraceの取り組み~

お客様が使い続けている状況で、FAXを廃止できるのか? ~テレワークにも対応できる、ペーパーレスFAXの提案~

  • オープソース書籍(サイド)
  • OSSNEWSに広告を掲載しませんか?

facebook

twitter