Apache Sparkは「DAGスケジューラ」「クエリオプティマイザ」「物理実行エンジン」などを駆使して、バッチデータ処理やストリーミングデータ処理に対して画期的な高速処理性能を実現しています。
ロジスティック回帰処理などの実行性能を測定すると「SparkはHadoopに比べて100倍高速に処理できる性能」を発揮します。
Sparkは、対象データをすべてメモリ上のみで処理する「インメモリ処理」により、処理全体の実行速度向上を実現しています。処理時間を増長化させるディスクアクセスを避けることで、複雑な計算処理を非常に高速に処理できます。
メモリに格納しきれないデータ量の場合は、必要に応じてデータをディスクに書き出して実行します。
多くの組織で数千ものノードのクラスタ上でSparkが実行されています。8000ノードで動作するシステムも存在しています。
Sparkはペタバイトサイズまで正常に動作することが証明されています。本番ワークロードにおいて、ペタバイトサイズデータに対して、ETLやデータ分析が実行されています。
Sparkは、並列アプリケーションを簡単に構築できるようにする80以上の高級オペレータを提供しています。対話型シェルも利用できます。
「Java」「Scala」「Python」「R言語」「SQL」などで効率的にアプリケーションを開発できます。
Apache Sparkは、数百もの多様なデータソースにアクセスできます。
・HDFS
・Alluxio
・Apache Cassandra
・Apache HBase
・Apache Hive など
Apache Sparkは「スタンドアロン」や「クラウド」で動作できます。
既存クラスタマネージャ上で動作できるデプロイオプションが提供されています。
・Apache Hadoop
・Apache Mesos
・Kubernetes など
オープンソースのビッグデータ処理ソフトウエア「Apache Spark」をディープラーニング(深層学習)対応させる動きが活発化している点について解説。 【Apache Sparkとは】 インメモリ高速分散処理プラットフォーム https://www.ossnews.jp/oss_info/Apache_Spark 【テーマ】 ・SQLクエリーで深層学習 ・様々なSparkアプリ...
OSS×Cloud ACCESS RANKING