概要
Azure HDInsightとは、クラウドによって機能強化されたHadoopディストリビューションです。エンタープライズ向けの大規模データ分散処理サービスを提供します。
基本情報
プラットフォーム | Azure |
クラウドサービス名 | Azure HDInsight |
読み方 | アジュール エイチディ インサイト |
略称 | --- |
「Apache Hadoop」とは
Apache Hadoop(アパッチ ハドゥープ)とは、オープンソースの大規模データ分散処理フレームワークです。大規模データを効率的に分散処理/管理できます。
→OSS×Cloud News →Apache Hadoopとは
→Microsoft Azure →Hadoop とは?
基本説明
HDInsightはビッグデータテクノロジを提供する完全マネージドクラウドサービスです。Hadoop関連オープンソースクラスタを素早く簡単に作成できます。
主な特徴
可用性
Azure HDInsightには、99.9%のSLA保証と365日24 時間体制のサポートが付いています。
仮想マシンインスタンスだけではなく、Azureのビッグデータソリューション全体が対象です。標準的なHadoop実装では対処できない障害にも耐えられるようになっています。
スケーラブル
HDInsightは、任意のタイミングで、オンデマンドで任意の数のノードを迅速に作成できます。コンピューティングとストレージが分離されているため、効率よくワークロードのサイズ調整が可能です。
ペタバイトクラスまでのデータ容量に対応できる設計になっています。
セキュリティと監視
HDInsightはデータアセットを保護する各種セキュリティ機能を備えています。オンプレミスのセキュリティガバナンスをそのままクラウドに拡張できます。
さまざまなアラート機能や監視機能により、詳細なチェックを行えます。
提供するクラスタ種類
HDInsightは、Hadoop関連の各種クラスタを提供します。
・Apache Hadoop(分散処理)
・Apache Spark(メモリ内並列処理)
・Apache HBase(Hadoop上に構築されたNoSQLデータベース)
・Apache Storm(データストリーム処理)
・Microsoft R Server(並列分散Rプロセスをホスト) など
Hadoopソリューション連携
独立系ソフトウェアベンダーが開発を行う各種Hadoop関連ソリューションとの連携が可能です。オンプレミスHadoopクラスタをクラウドに接続することも可能です。
「Azure Marketplace」に多くのソリューションが登録されています。
→Microsoft Azure →Azure Marketplace
開発環境
統合開発環境「Visual Studio」「Eclipse」「IntelliJ」などで開発できます。
また、データサイエンティスト向けツール「Jupyter」「Zeppelin」なども連携できます。
さまざまなデータに対応
Azure HDInsightは、さまざまなデータ(構造化、半構造化、非構造化)に対する高速処理が可能です。Webクリックストリーム、ソーシャルメディア、サーバログ、センサーデータなどの分析を行えます。
同様サービス
同様なサービスとして、次のようなものがあります。
AWS「Amazon EMR」、Google Cloud Platform「CLOUD DATAPROC」など
導入事例
オフィシャルサイトで導入事例が紹介されています。
→Microsoft Azure →HDInsight
参考元サイト
→Microsoft Azure →HDInsight
→Microsoft Azure →Azure HDInsight における Hadoop エコシステムの概要
→Microsoft Azure →HDInsight クラウドでの 100% Apache Hadoop ベースのサービス
※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。