「Pentaho Data Integration(PDI)」とは、オープンソースのETLツールです。
・「ETL」は「Extract Transform Load」の略
・データについて「入力→変換→出力」を行うツール
・「変換」=「重複行排除」「列名前変更」「型変更」「データJOIN」など
・フローを可視化できるため管理が容易
・「Kettle」とも呼ばれる
・強力な「抽出」「変換」「ローディング(ETL)」機能を提供
・洗練されたユーザインターフェース
・直観的でグラフィカルなドラッグ&ドロップ設計環境
・画期的なメタデータ駆動型アプローチ
・PentahoのBIツール「Business Analytics Platform」とは独立して単独で利用できる
・データフロー定義ファイルはxml(git上で管理できる)
「Pentaho Data Integration(PDI)」のオフィシャルサイトです。各種公式情報を参照できます。
→Hitachi Vantara Community →Data Integration - Kettle
「Pentaho Data Integration」などのツールを使用して、ETL処理を行なう一連の流れについて解説されています。
[システムの概要]
・データ収集
・ETL処理
・BI
[主要技術紹介]
・Scrapy
・Pentaho Data Integration
・Tableau Public
[データ収集から変換、可視化、公開までの流れ]
・どういう問いに答えたいかを考える
・スキーマの全体像を作る
・データを収集する
・ETL処理を記述する
・データを分析する
・分析結果を公開する
「Pentaho Data Integration」の使い方について「基本的な流れ」「各機能の使用方法」などについて解説されています。
・データ変換の流れ
・基本的な使い方
・個別のアイコンの説明
・入力
・変換
・フロー
・結合
・出力
・その他
2017年04月19日(水)14:30~16:30 中央区のJJK会館2階多目的ホールA にて「米国におけるオープンソース最新活用状況」と題したセミナーが開催されました。 当日は、オープンソースに関心をお持ちの方々がご来場くださり、お陰様で盛況のうちに終了することができました。皆さま熱心に公聴され、メモを執る姿も多く見受けられましたました。 また、来場者アンケートでは多くのコメントを頂戴しまし...
OSS×Cloud ACCESS RANKING