Apache Sparkの主な特徴として、「高速処理」「スケーラビリティ」「プログラミング言語サポート」「データソースアクセス」「デプロイオプション」について紹介。

「Apache Spark」の主な特徴

Apache Sparkの主な特徴として、「高速処理」「スケーラビリティ」「プログラミング言語サポート」「データソースアクセス」「デプロイオプション」について紹介。

■関連する比較ページ

「Apache Spark」の主な特徴

■高速処理

Apache Sparkは「DAGスケジューラ」「クエリオプティマイザ」「物理実行エンジン」などを駆使して、バッチデータ処理やストリーミングデータ処理に対して画期的な高速処理性能を実現しています。

ロジスティック回帰処理などの実行性能を測定すると「SparkはHadoopに比べて100倍高速に処理できる性能」を発揮します。

インメモリ処理

Sparkは、対象データをすべてメモリ上のみで処理する「インメモリ処理」により、処理全体の実行速度向上を実現しています。処理時間を増長化させるディスクアクセスを避けることで、複雑な計算処理を非常に高速に処理できます。

メモリに格納しきれないデータ量の場合は、必要に応じてデータをディスクに書き出して実行します。

■スケーラビリティ

ノード数

多くの組織で数千ものノードのクラスタ上でSparkが実行されています。8000ノードで動作するシステムも存在しています。

データサイズ

Sparkはペタバイトサイズまで正常に動作することが証明されています。本番ワークロードにおいて、ペタバイトサイズデータに対して、ETLやデータ分析が実行されています。

■プログラミング言語サポート

Sparkは、並列アプリケーションを簡単に構築できるようにする80以上の高級オペレータを提供しています。対話型シェルも利用できます。

「Java」「Scala」「Python」「R言語」「SQL」などで効率的にアプリケーションを開発できます。

■データソースアクセス

Apache Sparkは、数百もの多様なデータソースにアクセスできます。
・HDFS
・Alluxio
・Apache Cassandra
・Apache HBase
・Apache Hive など

■デプロイオプション

Apache Sparkは「スタンドアロン」や「クラウド」で動作できます。

クラスタサポート

既存クラスタマネージャ上で動作できるデプロイオプションが提供されています。
・Apache Hadoop
・Apache Mesos
・Kubernetes など

Apache Spark最新TOPICS

【OSS】ビッグデータ処理ソフトウエア「Apache Spark」、ディープラーニング(深層学習)対応させる動きが活発化---SQLクエリで深層学習、様々なSparkアプリケーションに深層学習を取り込む(2017年08月14日 11:03)

オープンソースのビッグデータ処理ソフトウエア「Apache Spark」をディープラーニング(深層学習)対応させる動きが活発化している点について解説。 【Apache Sparkとは】 インメモリ高速分散処理プラットフォーム https://www.ossnews.jp/oss_info/Apache_Spark 【テーマ】 ・SQLクエリーで深層学習 ・様々なSparkアプリ...

Apache Spark最新CLOSEUPコラム

イベント情報

セミナー講演資料

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

ビッグデータ処理のデータベースとして MySQL HeatWave が最適な理由 〜AWS Aurora/Redshift、GCP BigQuery との性能&コスト比較〜

注目のDB技術「HTAP」とは? ~手軽に、かつ高速に、リアルタイム分析を実現する方法~

上からも下からもプレッシャー中間管理職の「悩み」をデータの視点で解決 〜タイムリーなデータ活用、円滑な状況共有を導く分かりやすいデータストーリーとは〜

  • オープソース書籍(サイド)
  • OSSNEWSに広告を掲載しませんか?

facebook

twitter