Apache Spark(アパッチスパーク)とは、インメモリ高速分散処理プラットフォームで、大規模データ処理用統合分析機能を提供します。

オープンソースのビッグデータ処理ツール/Apache Sparkとは

Apache Spark(アパッチスパーク)とは、インメモリ高速分散処理プラットフォームで、大規模データ処理用統合分析機能を提供します。

■関連する比較ページ

「Apache Spark」基本情報

■概要

Apache Spark(アパッチスパーク)とは、インメモリ高速分散処理プラットフォームで、大規模データ処理用統合分析機能を提供します。

■基本説明

Apache Sparkは、オープンソースの分散型クラスタコンピューティングフレームワークです。「高速」かつ「汎用的」であることを目標に設計されており、Java派生言語「Scala」で実装されています。

「クラスタ全体をプログラミングするためのインターフェース」を提供し、「Java/Scala/Python/R言語用高水準API」「SQLおよび構造化データ処理機能」「機械学習機能」「グラフデータ処理機能」「ストリーミング機能」などの高機能なライブラリを搭載しています。

■経緯

・2014年 初版リリース

Sparkのコードベースはカリフォルニア大学バークレー校のAMPLabで開発されました。その後、Apache Software Foundationに寄贈され、Apacheトップレベルプロジェクトの1つとして開発が進められています。

■ユースケース

機械学習

Apache Sparkは「RDD(Resillient Distributed Datasets)」という独自キャッシュ機構を搭載しています。分散メモリRDDを活用することで、機械学習のような特定のデータに対して繰り返しアクセスするような処理を得意としています。

リアルタイム処理

Apache Sparkには、リアルタイム処理を実現するためのフレームワークも備わっています。

■オフィシャルサイト情報

オフィシャルサイト

→Apache Spark(Unified Analytics Engine for Big Data)

ライセンス情報

Apache Sparkのライセンスは「Apache License 2.0」です。

詳細について、こちらを参照ください。
→GitHub →apache/spark →LICENSE

動作環境

Apache Sparkは「Windows」「Linux」「macOS」で動作します。

ダウンロード

→Apache Spark →Download Apache Spark

導入事例

Apache Sparkは、1000を超える組織やプロジェクトで採用されています。

→Apache Spark →Project and Product names using "Spark"

■同様製品

同様な機能を提供する製品として、次のようなものがあります。

オープンソース製品:「Apache Hadoop」「Apache Storm」など。

Apache Spark最新TOPICS

【OSS】ビッグデータ処理ソフトウエア「Apache Spark」、ディープラーニング(深層学習)対応させる動きが活発化---SQLクエリで深層学習、様々なSparkアプリケーションに深層学習を取り込む(2017年08月14日 11:03)

オープンソースのビッグデータ処理ソフトウエア「Apache Spark」をディープラーニング(深層学習)対応させる動きが活発化している点について解説。 【Apache Sparkとは】 インメモリ高速分散処理プラットフォーム https://www.ossnews.jp/oss_info/Apache_Spark 【テーマ】 ・SQLクエリーで深層学習 ・様々なSparkアプリ...

Apache Spark最新CLOSEUPコラム

  • Zabbixカンファレンス2019
  • OSSNEWSに広告を掲載しませんか?

facebook

twitter