Apache Hadoop(アパッチハドゥープ)とは、オープンソース大規模データ分散処理フレームワークです。大規模データを効率的に分散処理および管理できます。
データ処理高速化のための手段として、高価な高性能サーバを導入する方法があります。しかし、処理対象データがさらに増大した場合、処理性能を維持するために大きなコストが発生します。
もう1つの手段として「分散処理」があります。一般的な安価なサーバを複数台用意して、1つの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することで全体の処理能力を向上できます。「コストを安く抑えることができる」「将来的な拡張も容易」などのメリットがあります。
分散処理技術はビッグデータ活用市場の拡大により需要が高まっています。
Apache Hadoopは、一般的なハードウェアで構築された大規模クラスタでアプリケーションを実行するためのフレームワークです。「データ処理基盤」と「分散コンピューティング基盤」という2つの特徴を持っています。
Apache Hadoopは、コンピュータクラスタ全体の処理能力を統合して、「MapReduceプログラミングモデルによるビッグデータ(大規模データセット)分散処理」を可能とするフレームワークです。主にJavaで実装されています。
アプリケーションに信頼性とデータ移動の両方を透過的に提供します。数千ノードに対応し、ペタバイト級データを処理できます。
Apache Hadoopは、Apacheソフトウェア財団(Apache Software Foundation)を中心として開発が進められています。Apacheトップレベルプロジェクトの1つとして、世界規模の開発貢献者コミュニティによって支えられています。
Apache Hadoopプロジェクトは、「高い信頼性」かつ「スケーラブル」な分散コンピューティングのためのオープンソースソフトウェア開発を目標としています。
→Apache Hadoop →Who We are(Apache Hadoop Project Members)
・2006年:初版リリース
Apache Hadoopは、Webサイトをクロールし、クロールされたページの検索エンジンインデックスを構築する「Nutchプロジェクト」のインフラストラクチャとして構築されました。
Apache Hadoopは、以下のGoogleの技術をベースとしてJavaで実装されました。
・分散ファイルシステム「GFS(Google File System)」---Google社が自社システムの基盤として利用していたもの
・分散処理システム「MapReduce」---分散データベース「BigTable」ベース
Apache Hadoopは、以下のような大規模データ処理が必要な用途で活用できます。
・ログ分析
・クリックストリーム分析
・マーケティング分析
・機械学習
・データマイニング
・画像処理
・XMLメッセージ処理
・Webクロール
・テキスト処理
・データアーカイブ---リレーショナル/表形式データを含む一般的なアーカイブ など
Apache Hadoopのライセンスは「Apache License 2.0」です。
詳細について、こちらを参照ください。
→GitHub →apache/hadoop →LICENSE.txt
Apache Hadoopは、「Facebook」「Visa」「Yahoo!」「IBM」「New York Times」「リクルート」「楽天」など、多くのエンタープライズ企業などでの採用実績があります。
→Apache Hadoop →Powered by Apache Hadoop
同様な機能を提供する製品として、次のようなものがあります。
オープンソース製品:「Apache Spark」「Apache Storm」など。
主要なオープンソースストレージソリューションを紹介。 ①Alluxio Alluxio(旧名:Tachyon)はメモリ速度の仮想分散ストレージを提供する。 →alluxio.io...
OSS×Cloud ACCESS RANKING