Amazon RedshiftとApache Hadoopを比較

    Amazon Redshiftはクラウド上に構築されたデータウェアハウスサービスです。 競合としては、エンタープライズ向けデータウェアハウス製品(IBM NetezzaやTeradataなど)となります。 オープンソースで実装する場合は、HadoopとそのSQL言語コンポーネントであるHiveを利用して同様のサービスを提供することが考えられます。

    「Amazon Redshift」基本情報

    概要

    Amazon Redshiftとは、AWSが提供するクラウド型データウェアハウス(DWH)サービスです。大容量データを高速処理でき、費用対効果の高いデータウェアハウスを利用できます。

    基本データ

    プラットフォーム AWS
    クラウドサービス名 Amazon Redshift
    読み方 アマゾン レッドシフト
    略称 ---

    基本説明

    Amazon Redshiftを利用すると、「標準SQL」および「既存のビジネスインテリジェンス(BI)ツール」を使用して、すべてのデータをシンプルかつコスト効率よく分析できます。

    TOPに戻る

    主な特徴

    大容量データ処理

    Amazon Redshiftは、1エクサバイトを超える大容量データに対応します。

    高速処理

    Amazon Redshiftでは、さまざまな革新的技術を駆使して、ペタバイト単位の構造化データに対して高速な分析クエリ性能を実現しています。
    ・高パフォーマンスのローカルディスク
    ・列指向ストレージテクノロジー(I/O効率向上)
    ・データ圧縮
    ・ゾーンマッピング
    ・クエリ最適化(SQL操作の並列化と分散化)
    ・超並列クエリ実行(複数ノード間でのクエリ並列化)

    ほとんどの結果は数秒で返され、従来のデータベースよりも最大で10倍のパフォーマンスを達成します。

    Amazon S3用クエリ実行機能「Redshift Spectrum」

    「Redshift Spectrum」とは、「Amazon Redshift」から、「Amazon S3」のエクサバイト単位の非構造化データに対してSQLクエリを直接実行できる機能です。

    ポイント
    ・ロードや変換は不要
    ・さまざまなオープンデータフォーマットに対応
    ・データセットのサイズに関係なく高速なクエリ実行が可能
    ・「Amazon S3」をデータレイクとして使用できる

    スケーラブル

    パフォーマンスや容量のニーズの変化に合わせて、コンソール/APIから、クラスタサイズを簡単に変更できます。

    耐障害性

    ノードに書き込まれたデータはすべてクラスタ内の別ノードへ自動的に複製され、全データは常時Amazon S3にバックアップされます。

    クラスタ状態は常時モニタリングされており、障害があるドライブから自動的にデータを再度複製し、必要に応じてノードの交換が行われます。

    セキュリティ

    保管中/移動中/バックアップのデータについて、ハードウェアアクセラレーション対応の「AES-256」および「SSL」を使用して暗号化できます。

    分析作業の自動化

    Amazon Redshiftでは、「データウェアハウスの管理」「モニタリング」「スケーリング」など、一般的な管理作業の大半を簡単に自動化できます。

    「PostgreSQL」準拠

    Amazon Redshiftは、「PostgreSQL 8.0.2」に準拠しています。

    PostgreSQL標準の「クライアントコマンド」「psql」を使用可能で、JDBCやODBCなどの接続もサポートしています。

    コスト削減

    従来のデータウェアハウス構築と比較すると、年間費用で10倍~1000倍近くのコストダウンも見込め、スモールスタートで始められるメリットもあります。

    TOPに戻る

    同様サービス

    同様なサービスとして、次のようなものがあります。

    Azure「SQL Data Warehouse」、Google Cloud Platform「BigQuery」など

    TOPに戻る

    オフィシャルサイト

    オフィシャルサイト
    →AWS →Amazon Redshift

    料金情報
    →AWS →Amazon Redshift →料金

    導入事例
    →AWS →Amazon Redshift →Customer Success

    TOPに戻る

    参考元サイト

    ※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。


    「Apache Hadoop」基本情報

    ■概要

    Apache Hadoop(アパッチハドゥープ)とは、オープンソース大規模データ分散処理フレームワークです。大規模データを効率的に分散処理および管理できます。

    ■分散処理とは

    データ処理高速化のための手段として、高価な高性能サーバを導入する方法があります。しかし、処理対象データがさらに増大した場合、処理性能を維持するために大きなコストが発生します。

    もう1つの手段として「分散処理」があります。一般的な安価なサーバを複数台用意して、1つの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することで全体の処理能力を向上できます。「コストを安く抑えることができる」「将来的な拡張も容易」などのメリットがあります。

    分散処理技術はビッグデータ活用市場の拡大により需要が高まっています。

    ■基本説明

    Apache Hadoopは、一般的なハードウェアで構築された大規模クラスタでアプリケーションを実行するためのフレームワークです。「データ処理基盤」と「分散コンピューティング基盤」という2つの特徴を持っています。

    Apache Hadoopは、コンピュータクラスタ全体の処理能力を統合して、「MapReduceプログラミングモデルによるビッグデータ(大規模データセット)分散処理」を可能とするフレームワークです。主にJavaで実装されています。

    アプリケーションに信頼性とデータ移動の両方を透過的に提供します。数千ノードに対応し、ペタバイト級データを処理できます。

    ■主要開発元

    Apache Hadoopは、Apacheソフトウェア財団(Apache Software Foundation)を中心として開発が進められています。Apacheトップレベルプロジェクトの1つとして、世界規模の開発貢献者コミュニティによって支えられています。

    Apache Hadoopプロジェクトは、「高い信頼性」かつ「スケーラブル」な分散コンピューティングのためのオープンソースソフトウェア開発を目標としています。

    →Apache Hadoop →Who We are(Apache Hadoop Project Members)

    ■経緯

    ・2006年:初版リリース

    Nutchプロジェクト用インフラストラクチャ

    Apache Hadoopは、Webサイトをクロールし、クロールされたページの検索エンジンインデックスを構築する「Nutchプロジェクト」のインフラストラクチャとして構築されました。

    http://nutch.apache.org/

    Google技術ベース

    Apache Hadoopは、以下のGoogleの技術をベースとしてJavaで実装されました。
    ・分散ファイルシステム「GFS(Google File System)」---Google社が自社システムの基盤として利用していたもの
    ・分散処理システム「MapReduce」---分散データベース「BigTable」ベース

    ■ユースケース

    Apache Hadoopは、以下のような大規模データ処理が必要な用途で活用できます。
    ・ログ分析
    ・クリックストリーム分析
    ・マーケティング分析
    ・機械学習
    ・データマイニング
    ・画像処理
    ・XMLメッセージ処理
    ・Webクロール
    ・テキスト処理
    ・データアーカイブ---リレーショナル/表形式データを含む一般的なアーカイブ など

    ■オフィシャルサイト情報

    オフィシャルサイト

    →Apache Hadoop

    ライセンス情報

    Apache Hadoopのライセンスは「Apache License 2.0」です。

    詳細について、こちらを参照ください。
    →GitHub →apache/hadoop →LICENSE.txt

    ダウンロード

    →Apache Hadoop →Download

    導入事例

    Apache Hadoopは、「Facebook」「Visa」「Yahoo!」「IBM」「New York Times」「リクルート」「楽天」など、多くのエンタープライズ企業などでの採用実績があります。

    →Apache Hadoop →Powered by Apache Hadoop

    ■同様製品

    同様な機能を提供する製品として、次のようなものがあります。

    オープンソース製品:「Apache Spark」「Apache Storm」など。