Apache Drill(アパッチドリル)。ビッグデータに対応するスキーマフリーSQLクエリエンジンです。構造化データ/非構造化データなどのさまざまなデータソースに対して、直接SQLクエリを実行して結果を得ることができます。

オープンソースのビッグデータ処理ツール/Apache Drillとは

Apache Drill(アパッチドリル)。ビッグデータに対応するスキーマフリーSQLクエリエンジンです。構造化データ/非構造化データなどのさまざまなデータソースに対して、直接SQLクエリを実行して結果を得ることができます。

基本情報

概要

Apache Drill(アパッチドリル)とは、ビッグデータに対応するスキーマフリーSQLクエリエンジンです。構造化データ/非構造化データなどのさまざまなデータソースに対して、直接SQLクエリを実行して結果を得ることができます。

基本説明

Apache Drillは、事前のスキーマ定義を必要とせずに、さまざまな種類のデータソースに対する分析機能を提供します。複数のデータストアから単一クエリ(SQL)でデータを集めることができます。

Googleが開発するクエリツール「Dremel」のオープンソース実装です。Linux/Windows/Mac上で動作します。

「クエリプラン自動再構成(オプティマイザ)機能」「実行時データ主導コンパイル/リコンパイル機能」「メモリ管理機能」なども備えています。

経緯

2012年:プロジェクト開始
2014年:バージョン1.0リリース

TOPに戻る

主な特徴

スキーマレス(Agility)

動的スキーマディスカバリをサポートしており、事前スキーマ定義は必要ありません。各種データモデルに対してフレキシブルに対応できます。

事前の準備作業が不要であるため、対象データストアから迅速にデータ集計できます。ビッグデータ活用の場面においても非常に有効です。

SQL(ANSIベース)サポート

慣れ親しんでいるSQLで、構造型データ(RDBMSなど)/非構造データ(Hadoopなど)/テキストファイル(JSON形式など)からデータをjoinできます。

対応データストア

構造化/非構造化関係なく、さまざまなデータストアに対応できます。

HBase、MongoDB、MapR-DB、Hive、HDFS、MapR-FS、Amazon S3、Azure Blob Storage、Google Cloud Storage、OpenStack Swift、NAS、JSONデータモデル、ローカルファイル(JSON形式/CSV形式)、ODBC/JDBC、Restful APIなど。

プラグイン機能を搭載しており、対応データストアを追加できます。

データ処理方法

Drillは、データソースを走査しフィルタすることを念頭に開発されています。データは走査した部分からパイプライン処理で次の処理に送られ、最短時間で最終結果が得られるように処理します。処理途中で障害が発生した場合には再実行になります。

その他ポイント

・分散クエリ対応

・分散されたサーバ上で「drillbit」というデーモンが動作

・「dillbit」の管理は「ZooKeeper」が行う

・他の実行エンジン(MapReduce/Sparkなど)には依存しない

TOPに戻る

同様製品(概要情報)

同様な機能を提供する製品として、次のようなものがあります。

オープンソース製品:「Apache Spark」「Apache Hadoop」など。

TOPに戻る

導入事例

SQLでビッグデータを処理できるクエリエンジンとして、大きな注目を集めています。

TOPに戻る

ライセンス情報

Apache Drillのライセンスは、「Apache License Version 2.0」です。このライセンスに従うことを条件として、ソースコードの改変と公開が許可されています。

TOPに戻る

ダウンロード

ダウンロードページ

TOPに戻る

※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。

Apache Drill最新TOPICS

最新情報はありません。

Apache Drill最新CLOSEUPコラム

イベント情報

セミナー講演資料

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

上からも下からもプレッシャー中間管理職の「悩み」をデータの視点で解決 〜タイムリーなデータ活用、円滑な状況共有を導く分かりやすいデータストーリーとは〜

ビッグデータ処理のデータベースとして MySQL HeatWave が最適な理由 〜AWS Aurora/Redshift、GCP BigQuery との性能&コスト比較〜

注目のDB技術「HTAP」とは? ~手軽に、かつ高速に、リアルタイム分析を実現する方法~

  • オープソース書籍(サイド)
  • OSSNEWSに広告を掲載しませんか?

facebook

twitter