「Apache Hadoop」の主な特徴として、「分散処理フレームワーク」「MapReduceプログラミングモデル」「高速処理」「スケーラブル」「高可用性」「豊富な対応データ形式」「バッチ処理向き(リアルタイム処理は不向き)」について紹介します。

「Apache Hadoop」の主な特徴

「Apache Hadoop」の主な特徴として、「分散処理フレームワーク」「MapReduceプログラミングモデル」「高速処理」「スケーラブル」「高可用性」「豊富な対応データ形式」「バッチ処理向き(リアルタイム処理は不向き)」について紹介します。

■関連する比較ページ

「Apache Hadoop」の主な特徴

■分散処理フレームワーク

分散処理基盤を独自で開発する場合には「プロセス起動」「プロセス監視」「プロセス間通信管理」「データ処理の効率的分散」「特定ノード故障時の動作」など、さまざまな複雑な考慮が必要になり、完成までには非常に大きなコストと開発技術が必要となります。

Apache Hadoopを利用することで、上記のような複雑な処理をすべてApache Hadoopに任せることが可能となります。Apache Hadoopは「ジョブ実行」「タスク分散」を管理し、並列分散方式によるデータ保管機能を提供します。

開発者は「Mapper」と「Reducer」という2つのスクリプトを作成するだけで簡単に分散処理を実装できるようになり、本来やるべきビジネスロジックに集中できます。

■MapReduceプログラミングモデル

Apache Hadoopの中核は、分散ファイルシステム「HDFS」と、並列分散処理フレームワーク「MapReduce」で構成されています。

処理手順概要

①Apache Hadoopは、巨大なファイルをブロックに分割し、クラスタ内のノードに分散させます。
②パッケージ化されたコードをノードに転送してデータを並行して処理します。

■高速処理

Apache Hadoop活用により処理高速化が可能です。

サーバ1台の既存システムでは「数日」を要していた重い処理を、Apache Hadoopによる分散処理に切り替えると「数時間」で完了できるケースもあります。

■スケーラブル

Hadoopは汎用的で安価なサーバを追加することで拡張できます。

1000台規模のスケールアップに対応できるように設計されており、それぞれのマシンが計算処理能力とストレージを提供します。

2000ノードのGNU/Linuxクラスタでの動作が実証されており、ペタバイト級データを処理できます。

■高可用性

Apache Hadoopは、耐障害性を重視して設計されているため、一部の構成ノードに障害が発生してダウンしても、すぐに別ノードへ処理を振り分けることができます。

Apache Hadoopのすべてのモジュールは「ハードウェア障害は一般的に発生するものであり、フレームワークによって自動的に処理されるべきである」という前提で設計されています。

Apache Hadoopは、高可用性を提供するためにハードウェアの可用性に依存するのではなく、Hadoopライブラリ自体がアプリケーション層で障害を検出して処理するように設計されているため、一般的な安価なコンピュータクラスタ上で高可用性サービスを提供できます。

■豊富な対応データ形式

Hadoopは多様なシステムのさまざまな形式のデータを処理し保管できます。

「構造化データ」「非構造化データ」「ログデータ」「画像データ」「音声データ」「通信記録」「電子メール」など、定型/非定型関係なく、ありとあらゆるデータを取り込んで処理できます。

■バッチ処理向き(リアルタイム処理は不向き)

Hadoopは、分散処理を実行するためのオーバーヘッドが大きいため、即時性パフォーマンスが求められるリアルタイム処理には向かない傾向にあります。

そのような用途のためには、大規模データリアルタイム処理を得意とする「Apache Spark」や「Apache Storm」などが選択肢となります。

Apache Hadoop最新CLOSEUPコラム

イベント情報

セミナー講演資料

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

データ分析の課題をAWS Analyticsサービスで解決する方法

データ活用におけるクレンジングの課題 〜「データ連携ツールを使っても非エンジニアには負担」の解決策〜

上からも下からもプレッシャー中間管理職の「悩み」をデータの視点で解決 〜タイムリーなデータ活用、円滑な状況共有を導く分かりやすいデータストーリーとは〜

  • オープソース書籍(サイド)
  • OSSNEWSに広告を掲載しませんか?

facebook

twitter