Apache Hadoop(アパッチ ハドゥープ)。オープンソース大規模データ分散処理フレームワークです。大規模データを効率的に分散処理/管理できます。注目を集めている技術の1つです。

オープンソースのビッグデータ処理ツール/Apache Hadoopとは

Apache Hadoop(アパッチ ハドゥープ)。オープンソース大規模データ分散処理フレームワークです。大規模データを効率的に分散処理/管理できます。注目を集めている技術の1つです。

基本情報

概要

Apache Hadoop(アパッチ ハドゥープ)とは、オープンソース大規模データ分散処理フレームワークです。大規模データを効率的に分散処理/管理できます。注目を集めている技術の1つです。

分散処理とは

データ処理高速化のための手段として、処理サーバを高性能にする方法があります。しかし、将来、処理するデータが、さらに増えた場合に性能を上げるためには、非常にコストがかかります。
もう1つの手段としては、安価なサーバを複数台用意して、1つの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することで、全体の処理能力を向上させる方法です。これが分散処理です。コストを安く抑えることができ、将来的な拡張も容易です。

基本説明

Hadoopは、Apacheトップレベルプロジェクトの1つで、世界規模の開発貢献者コミュニティによって開発されています。
「データ処理基盤」と「分散コンピューティング基盤」という2つの特徴を持っています。
Google社が、自社システムの基盤として利用していた分散ファイルシステム「GFS(Google File System)」をベースにしたシステムと、分散データベース「BigTable」をベースにしたデータベースシステム「MapReduce」による分散処理システムなどをJavaで実装したものです。
オープンソース公開されたことで、分散処理を簡単に実装することが可能になり、「ビッグデータ活用市場の拡大」と「分散処理の需要」の波に乗って爆発的に広がっています。

TOPに戻る

主な特徴

オープンソース分散処理フレームワーク

分散処理を独自で開発するためには、プロセス起動/監視/プロセス間通信管理/データ処理の効率的分散/特定ノード故障時の動作など、さまざまな複雑な考慮が必要になりますが、Hadoopは、このような処理を一手に引き受けてくれます。
開発者は、「Mapper」「Reducer」の2つのスクリプトを作成するだけで、簡単に分散処理を実装できるようになり、本来やるべきビジネスロジックに集中できます。
それらがすべてオープンソース実装されているため、ソフトウェア導入コストも低く、運用時に不具合が発生したときにも自分でソースコードを修正することも可能です。
サーバ1台で数日かかっていたような重い処理を、Hadoopを使って分散処理に切り替えると数時間で終わらせることができる、といったことも可能になります。Hadoopには、アプリケーション数千ノード、および、ペタバイト級データを処理するだけの能力があります。

スケールアウト

Hadoopは、汎用的で安価なサーバを追加することで、無制限に拡張することができます。

耐障害性

耐障害性を重視して設計されているため、一部の構成ノードに障害が発生してダウンしても、すぐに別ノードへ処理を振り分けることができます。

多言語対応

Hadoopは、Javaで書かれたフレームワークであるため、Javaで記述するのが一般的です。しかし、「Hadoop Streaming」というツールが用意されており、標準入出力を持つプログラミング言語であれば、あらゆる言語でスクリプトを作成できます。

ありとあらゆる形式のデータを扱える

Hadoopは多様なシステムのさまざまな形式のデータを扱えます。
構造化データ、非構造化データ、ログファイル、画像、音声ファイル、通信記録、電子メールなど、定型/非定型関係なく、ありとあらゆるデータを取り込んで処理できます。

バッチ処理向き(リアルタイム処理は不向き)

Hadoopは、分散処理を実行するためのオーバーヘッドが大きいため、即時性パフォーマンスが求められるリアルタイム処理には向かない傾向にあります。
そのような用途のためには、大規模データリアルタイム処理を得意とする「Apache Spark」や「Apache Storm」などが選択肢となります。

TOPに戻る

同様製品(概要情報)

同様な分散処理フレームワークを提供する製品として、次のようなものがあります。

オープンソース製品:「Apache Spark」「Apache Storm」など。

TOPに戻る

導入事例

Facebook、Visa、Yahoo!、IBM、New York Times、リクルート、楽天など、多くのエンタープライズ企業などの採用をはじめとして、さまざまな領域で幅広く利用されています。

TOPに戻る

ライセンス情報

「Apache Hadoop」のライセンスは、「Apache License 2.0」です。このライセンスに従うことを条件として、ソースコードの改変と公開が許可されています。

TOPに戻る

ダウンロード

ダウンロードページ

TOPに戻る

※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。

Apache Hadoop最新CLOSEUPコラム

イベント情報

無料資料プレゼント

AI技術の方向性と企業の活用シナリオ

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



  • 20171130-netapp サイド
  • OSSNEWSに広告を掲載しませんか?

facebook

twitter