OSS×クラウド情報はこちら

「Apache Spark」の主な特徴

Apache Sparkの主な特徴として、「高速処理」「スケーラビリティ」「プログラミング言語サポート」「データソースアクセス」「デプロイオプション」について紹介。

■関連する比較ページ

Apache SparkとApache Hadoopの比較

「Apache Spark」の主な特徴

■高速処理

Apache Sparkは「DAGスケジューラ」「クエリオプティマイザ」「物理実行エンジン」などを駆使して、バッチデータ処理やストリーミングデータ処理に対して画期的な高速処理性能を実現しています。

ロジスティック回帰処理などの実行性能を測定すると「SparkはHadoopに比べて100倍高速に処理できる性能」を発揮します。

インメモリ処理

Sparkは、対象データをすべてメモリ上のみで処理する「インメモリ処理」により、処理全体の実行速度向上を実現しています。処理時間を増長化させるディスクアクセスを避けることで、複雑な計算処理を非常に高速に処理できます。

メモリに格納しきれないデータ量の場合は、必要に応じてデータをディスクに書き出して実行します。

■スケーラビリティ

ノード数

多くの組織で数千ものノードのクラスタ上でSparkが実行されています。8000ノードで動作するシステムも存在しています。

データサイズ

Sparkはペタバイトサイズまで正常に動作することが証明されています。本番ワークロードにおいて、ペタバイトサイズデータに対して、ETLやデータ分析が実行されています。

■プログラミング言語サポート

Sparkは、並列アプリケーションを簡単に構築できるようにする80以上の高級オペレータを提供しています。対話型シェルも利用できます。

「Java」「Scala」「Python」「R言語」「SQL」などで効率的にアプリケーションを開発できます。

■データソースアクセス

Apache Sparkは、数百もの多様なデータソースにアクセスできます。
・HDFS
・Alluxio
・Apache Cassandra
・Apache HBase
・Apache Hive　など

■デプロイオプション

Apache Sparkは「スタンドアロン」や「クラウド」で動作できます。

クラスタサポート

既存クラスタマネージャ上で動作できるデプロイオプションが提供されています。
・Apache Hadoop
・Apache Mesos
・Kubernetes　など

Apache Spark最新TOPICS

【OSS】ビッグデータ処理ソフトウエア「Apache Spark」、ディープラーニング(深層学習)対応させる動きが活発化---SQLクエリで深層学習、様々なSparkアプリケーションに深層学習を取り込む（2017年08月14日 11:03）

オープンソースのビッグデータ処理ソフトウエア「Apache Spark」をディープラーニング(深層学習)対応させる動きが活発化している点について解説。【Apache Sparkとは】インメモリ高速分散処理プラットフォーム https://www.ossnews.jp/oss_info/Apache_Spark 【テーマ】・SQLクエリーで深層学習・様々なSparkアプリ...