オープンソースのビッグデータ処理ツール / Apache Hadoopとは

「Apache Hadoop」基本情報

■概要

Apache Hadoop(アパッチハドゥープ)とは、オープンソース大規模データ分散処理フレームワークです。大規模データを効率的に分散処理および管理できます。

■分散処理とは

データ処理高速化のための手段として、高価な高性能サーバを導入する方法があります。しかし、処理対象データがさらに増大した場合、処理性能を維持するために大きなコストが発生します。

もう1つの手段として「分散処理」があります。一般的な安価なサーバを複数台用意して、1つの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することで全体の処理能力を向上できます。「コストを安く抑えることができる」「将来的な拡張も容易」などのメリットがあります。

分散処理技術はビッグデータ活用市場の拡大により需要が高まっています。

■基本説明

Apache Hadoopは、一般的なハードウェアで構築された大規模クラスタでアプリケーションを実行するためのフレームワークです。「データ処理基盤」と「分散コンピューティング基盤」という2つの特徴を持っています。

Apache Hadoopは、コンピュータクラスタ全体の処理能力を統合して、「MapReduceプログラミングモデルによるビッグデータ(大規模データセット)分散処理」を可能とするフレームワークです。主にJavaで実装されています。

アプリケーションに信頼性とデータ移動の両方を透過的に提供します。数千ノードに対応し、ペタバイト級データを処理できます。

■主要開発元

Apache Hadoopは、Apacheソフトウェア財団(Apache Software Foundation)を中心として開発が進められています。Apacheトップレベルプロジェクトの1つとして、世界規模の開発貢献者コミュニティによって支えられています。

Apache Hadoopプロジェクトは、「高い信頼性」かつ「スケーラブル」な分散コンピューティングのためのオープンソースソフトウェア開発を目標としています。

→Apache Hadoop　→Who We are(Apache Hadoop Project Members)

■経緯

・2006年：初版リリース

Nutchプロジェクト用インフラストラクチャ

Apache Hadoopは、Webサイトをクロールし、クロールされたページの検索エンジンインデックスを構築する「Nutchプロジェクト」のインフラストラクチャとして構築されました。

http://nutch.apache.org/

Google技術ベース

Apache Hadoopは、以下のGoogleの技術をベースとしてJavaで実装されました。
・分散ファイルシステム「GFS(Google File System)」---Google社が自社システムの基盤として利用していたもの
・分散処理システム「MapReduce」---分散データベース「BigTable」ベース

■ユースケース

Apache Hadoopは、以下のような大規模データ処理が必要な用途で活用できます。
・ログ分析
・クリックストリーム分析
・マーケティング分析
・機械学習
・データマイニング
・画像処理
・XMLメッセージ処理
・Webクロール
・テキスト処理
・データアーカイブ---リレーショナル/表形式データを含む一般的なアーカイブ　など