Apache Spark(アパッチ スパーク)。オープンソースのインメモリ高速分散処理プラットフォームです。「Apache Hadoop」の不得意な部分に改善を加え、ビッグデータに対するバッチ処理/リアルタイム処理/インタラクティブ分析などを高速に実行できます。

Apache Sparkとは

Apache Spark(アパッチ スパーク)。オープンソースのインメモリ高速分散処理プラットフォームです。「Apache Hadoop」の不得意な部分に改善を加え、ビッグデータに対するバッチ処理/リアルタイム処理/インタラクティブ分析などを高速に実行できます。

基本情報

概要

Apache Spark(アパッチ スパーク)とは、オープンソースのインメモリ高速分散処理プラットフォームです。「Apache Hadoop」の不得意な部分に改善を加え、ビッグデータに対するバッチ処理/リアルタイム処理/インタラクティブ分析などを高速に実行できます。

分散処理とは

ネットワーク接続された複数のコンピュータを用いて、計算処理を同時並列処理することです。ビッグデータを処理する場合に処理時間を短縮できます。安価なサーバを追加することで実現できるため費用を抑えることが可能です。

「Apache Hadoop」とは

Hadoopとは、ビッグデータ処理を目的とした分散処理フレームワークです。Javaで実装されています。

分散処理フレームワーク「MapReduce」、分散ファイルシステム「HDFS」、クラスタ管理システム「YARN」などで構成されています。

「Apache Spark」基本説明

Sparkは「RDD(Resillient Distributed Datasets)」という独自のキャッシュ機構を搭載し、分散メモリRDDを活用することで、機械学習のような特定のデータに対して繰り返しアクセスするような処理を得意としています。リアルタイム処理を実現するためのフレームワークも備わっています。

Sparkは、アプリケーションが確実にメモリ内にデータを保存できるようにします。このインメモリ処理により、処理時間を増長化させるディスクアクセスを避けることができます。これがSparkの高速性能のキーポイントとなります。

Apacheのトップレベルプロジェクトの1つとして開発が継続されています。「高速」かつ「汎用的」であることを目標に設計されています。Javaの派生言語である「Scala」で実装されています。

HadoopとSparkの関係

Hadoopは、非常に低コストでビッグデータを格納/処理できるようにして、ビッグデータ処理に革命をもたらしました。しかし、設計方針として、スループット向上に最適化されていたため、処理が複雑化するとレイテンシ(処理時間)が悪化してしまい、繰り返し計算処理(機械学習やグラフアルゴリズムなど)には適していません。

Sparkは、Hadoopの弱点を改善して、スループットとレイテンシを両立させました。

Sparkは、メモリに入りきる程度のデータ量の場合は高速に処理できます。しかし、収まりきらない非常に大規模なデータ処理はHadoopが安定して処理できます。Hadoopで基本処理したデータを、Sparkでドリルダウン処理するなど、双方の得意な処理を組み合わせた連携が模索されています。

TOPに戻る

主な特徴

インメモリ処理による高速性能

Sparkの内部処理方式では、内部でのレイテンシをできるだけ小さくするための手段としてインメモリ処理(対象データをすべてメモリ上のみで処理)することで、処理全体の実行速度を向上させる仕組みになっています。複雑な計算処理を非常に高速で実現できます。

特定のアプリケーションに関する実行性能について、「SparkはHadoopに比べて、インメモリ環境で100倍高速に処理できる」といわれています。

この画期的な高速性能が、Sparkの大きな特徴となっています。

TOPに戻る

同様製品(概要情報)

同様な機能を提供する製品として、次のようなものがあります。

オープンソース製品:「Apache Hadoop」「Apache Storm」など。

TOPに戻る

導入事例

IBMが全力で取り組むと発表するなど、今後のビッグデータ処理の中心となる可能性が高いフレームワークで、大変注目されています。

TOPに戻る

ライセンス情報

「Apache Spark」のライセンスは、「Apache License 2.0」です。このライセンスに従うことを条件として、ソースコードの改変と公開が許可されています。

TOPに戻る

ダウンロード

ダウンロードページ

TOPに戻る

※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。

Apache Spark最新TOPICS

【OSS】Yahoo、「TensorFlowOnSpark」をオープンソース公開---大規模クラスタディープラーニングモデルを作成(2017年02月15日 11:03)

Yahooは、「TensorFlowOnSpark」をオープンソース公開した。 【TensorFlowOnSparkとは】 ・オープンソース(Apache 2.0) ・SparkとTensorFlowを組み合わせるもの ・大規模クラスタディープラーニングモデルを作成 【Apache Sparkとは】 インメモリ高速分散処理プラットフォーム https://www.ossnew...

Apache Spark最新CLOSEUPコラム

  • オープソース書籍(サイド)

OSS×Cloud ACCESS RANKING

  • OSSNEWSに広告を掲載しませんか?

facebook

twitter