「Embulk」のプラグイン機能として、「概要」「入力プラグイン」「デコードプラグイン」「パーサープラグイン」「フォーマッタープラグイン」「エンコーダープラグイン」「出力プラグイン」「その他のプラグイン」について紹介。

「Embulk」のプラグイン機能

「Embulk」のプラグイン機能として、「概要」「入力プラグイン」「デコードプラグイン」「パーサープラグイン」「フォーマッタープラグイン」「エンコーダープラグイン」「出力プラグイン」「その他のプラグイン」について紹介。

概要

Embulkは、さまざまなプラグインを使用して、各種システムやファイル形式との間でデータをロードできます。

再利用性を高めるために、プラグインを共有して管理することで、カスタムスクリプトを読みやすく、保守しやすく維持できます。

■プラグインリスト

次のプラ​​グイン種類リストが公開されています。

・入力プラグイン
・出力プラグイン
・フィルタプラグイン
・ファイルパーサープラグイン
・ファイルデコーダプラグイン
・ファイルフォーマッタプラグイン
・ファイルエンコーダプラグイン
・エグゼキュータプラグイン

→plugins.embulk.org

■プラグインバンドル機能

「embulk mkbundleサブコマンド」により、プラグインが分離されたバンドルを作成できます。

プラグイン(gems)を、embulkディレクトリではなく、バンドルディレクトリにインストールすることで、プラグインのバージョンをシンプルに管理できます。

入力プラグイン

■ファイル入力プラグイン

ファイル入力プラグインは、ローカルファイルからデータを読み込みます。

デコードプラグイン

■Gzipデコーダプラグイン

Gzip形式にデコードします。

■BZip2デコーダプラグイン

BZip2形式にデコードします。

パーサープラグイン

■CSVパーサープラグイン

CSVパーサープラグインは「CSVファイル」や「TSVファイル」を解析します。

列設定を宣言できますが、列設定を自動的に生成する推測機能も利用できます。

エスケープされていない不規則な引用符の処理方法も指定できます。

■JSONパーサープラグイン

JSONパーサープラグインは、JSONオブジェクトの配列を含むJSONファイルを解析します。

columnsオプションにより、「列のリスト」と「JSON値をEmbulk列に抽出する方法」を宣言します。

処理結果として、JSON形式の「record」という名前の単一レコードを出力します。

フォーマッタープラグイン

■CSVフォーマッタープラグイン

CSVフォーマッタープラグインは、「CSV形式」や「TSV形式」にデータをフォーマットします。

quote_policyオプションにより、引用するフィールドタイプを指定できます。

エンコーダープラグイン

■Gzipエンコーダープラグイン

Gzipエンコーダープラグインは、Gzipを使用して出力ファイルを圧縮します。

「0(圧縮なし)」から「9(最高レベル圧縮)」の圧縮レベルを指定できます。

■BZip2エンコーダープラグイン

BZip2エンコーダープラグインは、BZip2を使用して出力ファイルを圧縮します。

「1」から「9」の圧縮レベルを指定できます。

出力プラグイン

■ファイル出力プラグイン

ファイル出力プラグインは、ローカルファイルシステムにレコードを出力します。

sequence_formatにより、タスクの「タスクインデックス」と「シーケンス番号」をフォーマットします。

その他のプラグイン

■ローカルエグゼキュータプラグイン

ローカルエグゼキュータプラグインは、唯一の組み込みエグゼキュータプラグインで、ローカルのスレッドを使用してタスクを実行します。

max_threadsオプション

max_threadsオプションにより、最大同時実行性を制御できます。

大きな数値を設定すると、空いているコンピュータリソースを最大限活用したハイパフォーマンスの転送を実施できます。

小さい数を設定すると、スレッドが多すぎて対象データストレージが過負荷になる状況を緩和できます。

min_output_tasksオプション

min_output_tasksオプションにより、「ページの散乱」を有効にできます。

入力タスクごとに複数のフィルタと出力スレッドを使用できるようにすることで、1つの入力タスクが複数スレッドで動作できるようになります。

入力データ速度が低い場合に、大きな数値を設定することで、Embulk全体の同時実行性パフォーマンスを向上できます。

■推測エグゼキュータプラグイン

推測エグゼキュータプラグインは、guessコマンドによって呼び出される推測機能です。

適切な推測プラグインを指定することで、処理順番などもを含めたEmbulk構成を提案します。

■プレビューエグゼキュータプラグイン

プレビューエグゼキュータプラグインは、previewコマンドによって呼び出されるプレビュー機能です。

①指定された入力ソースからサンプルバッファを読み取る
②サンプルバッファをpreviewPageオブジェクトに書き込む
③previewPageオブジェクトをコンソールに出力

preview_sample_buffer_bytesオプションにより、入力ソースから読み取るサンプルバッファのバイト数を制御できます。

Embulk最新TOPICS

最新情報はありません。

Embulk最新CLOSEUPコラム

イベント情報

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

溢れかえる社内データを整理する工夫 ~ファイルの整理から運用まで~

企業はどこまでアジャイル開発、DevOps、内製化に取り組めているのか?【Web対談】Dynatrace合同会社 堀込×マジセミ代表 寺田雄一

AI Opsで、AWS運用を自動化する ~1,000ノード以上の監視設定を自動化、障害原因の判断もAIが行う、ワイヤ・アンド・ワイヤレスとDynatraceの取り組み~

  • オープソース書籍(サイド)
  • OSSNEWSに広告を掲載しませんか?

facebook

twitter