「Embulk」のプラグイン機能として、「概要」「入力プラグイン」「デコードプラグイン」「パーサープラグイン」「フォーマッタープラグイン」「エンコーダープラグイン」「出力プラグイン」「その他のプラグイン」について紹介。

「Embulk」のプラグイン機能

「Embulk」のプラグイン機能として、「概要」「入力プラグイン」「デコードプラグイン」「パーサープラグイン」「フォーマッタープラグイン」「エンコーダープラグイン」「出力プラグイン」「その他のプラグイン」について紹介。

概要

Embulkは、さまざまなプラグインを使用して、各種システムやファイル形式との間でデータをロードできます。

再利用性を高めるために、プラグインを共有して管理することで、カスタムスクリプトを読みやすく、保守しやすく維持できます。

■プラグインリスト

次のプラ​​グイン種類リストが公開されています。

・入力プラグイン
・出力プラグイン
・フィルタプラグイン
・ファイルパーサープラグイン
・ファイルデコーダプラグイン
・ファイルフォーマッタプラグイン
・ファイルエンコーダプラグイン
・エグゼキュータプラグイン

→plugins.embulk.org

■プラグインバンドル機能

「embulk mkbundleサブコマンド」により、プラグインが分離されたバンドルを作成できます。

プラグイン(gems)を、embulkディレクトリではなく、バンドルディレクトリにインストールすることで、プラグインのバージョンをシンプルに管理できます。

入力プラグイン

■ファイル入力プラグイン

ファイル入力プラグインは、ローカルファイルからデータを読み込みます。

デコードプラグイン

■Gzipデコーダプラグイン

Gzip形式にデコードします。

■BZip2デコーダプラグイン

BZip2形式にデコードします。

パーサープラグイン

■CSVパーサープラグイン

CSVパーサープラグインは「CSVファイル」や「TSVファイル」を解析します。

列設定を宣言できますが、列設定を自動的に生成する推測機能も利用できます。

エスケープされていない不規則な引用符の処理方法も指定できます。

■JSONパーサープラグイン

JSONパーサープラグインは、JSONオブジェクトの配列を含むJSONファイルを解析します。

columnsオプションにより、「列のリスト」と「JSON値をEmbulk列に抽出する方法」を宣言します。

処理結果として、JSON形式の「record」という名前の単一レコードを出力します。

フォーマッタープラグイン

■CSVフォーマッタープラグイン

CSVフォーマッタープラグインは、「CSV形式」や「TSV形式」にデータをフォーマットします。

quote_policyオプションにより、引用するフィールドタイプを指定できます。

エンコーダープラグイン

■Gzipエンコーダープラグイン

Gzipエンコーダープラグインは、Gzipを使用して出力ファイルを圧縮します。

「0(圧縮なし)」から「9(最高レベル圧縮)」の圧縮レベルを指定できます。

■BZip2エンコーダープラグイン

BZip2エンコーダープラグインは、BZip2を使用して出力ファイルを圧縮します。

「1」から「9」の圧縮レベルを指定できます。

出力プラグイン

■ファイル出力プラグイン

ファイル出力プラグインは、ローカルファイルシステムにレコードを出力します。

sequence_formatにより、タスクの「タスクインデックス」と「シーケンス番号」をフォーマットします。

その他のプラグイン

■ローカルエグゼキュータプラグイン

ローカルエグゼキュータプラグインは、唯一の組み込みエグゼキュータプラグインで、ローカルのスレッドを使用してタスクを実行します。

max_threadsオプション

max_threadsオプションにより、最大同時実行性を制御できます。

大きな数値を設定すると、空いているコンピュータリソースを最大限活用したハイパフォーマンスの転送を実施できます。

小さい数を設定すると、スレッドが多すぎて対象データストレージが過負荷になる状況を緩和できます。

min_output_tasksオプション

min_output_tasksオプションにより、「ページの散乱」を有効にできます。

入力タスクごとに複数のフィルタと出力スレッドを使用できるようにすることで、1つの入力タスクが複数スレッドで動作できるようになります。

入力データ速度が低い場合に、大きな数値を設定することで、Embulk全体の同時実行性パフォーマンスを向上できます。

■推測エグゼキュータプラグイン

推測エグゼキュータプラグインは、guessコマンドによって呼び出される推測機能です。

適切な推測プラグインを指定することで、処理順番などもを含めたEmbulk構成を提案します。

■プレビューエグゼキュータプラグイン

プレビューエグゼキュータプラグインは、previewコマンドによって呼び出されるプレビュー機能です。

①指定された入力ソースからサンプルバッファを読み取る
②サンプルバッファをpreviewPageオブジェクトに書き込む
③previewPageオブジェクトをコンソールに出力

preview_sample_buffer_bytesオプションにより、入力ソースから読み取るサンプルバッファのバイト数を制御できます。

Embulk最新TOPICS

最新情報はありません。

Embulk最新CLOSEUPコラム

イベント情報

セミナー講演資料

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

マネージドサービス事業者の"サービス拡充"と"運用効率化"の両立 ~AWS,Azure,オンプレ…監視対象の拡大と、アラート対応・報告書作成などの業務効率化は、両立できるのか?~

【データセンター / システム運用事業者向け】複雑化するハイブリッドクラウドの監視運用を効率化する最適解 ~AWS, Azure, GCPの統合監視と運用自動化~

ITSMツール導入後、継続して価値あるサービスを提供できていますか? 〜VUCA時代に求められるITSMツールが持つべき特性とは〜

  • オープソース書籍(サイド)
  • OSSNEWSに広告を掲載しませんか?

facebook

twitter