Apache Spark(アパッチスパーク)とは、インメモリ高速分散処理プラットフォームで、大規模データ処理用統合分析機能を提供します。
Apache Sparkは、オープンソースの分散型クラスタコンピューティングフレームワークです。「高速」かつ「汎用的」であることを目標に設計されており、Java派生言語「Scala」で実装されています。
「クラスタ全体をプログラミングするためのインターフェース」を提供し、「Java/Scala/Python/R言語用高水準API」「SQLおよび構造化データ処理機能」「機械学習機能」「グラフデータ処理機能」「ストリーミング機能」などの高機能なライブラリを搭載しています。
・2014年 初版リリース
Sparkのコードベースはカリフォルニア大学バークレー校のAMPLabで開発されました。その後、Apache Software Foundationに寄贈され、Apacheトップレベルプロジェクトの1つとして開発が進められています。
Apache Sparkは「RDD(Resillient Distributed Datasets)」という独自キャッシュ機構を搭載しています。分散メモリRDDを活用することで、機械学習のような特定のデータに対して繰り返しアクセスするような処理を得意としています。
Apache Sparkには、リアルタイム処理を実現するためのフレームワークも備わっています。
→Apache Spark(Unified Analytics Engine for Big Data)
Apache Sparkのライセンスは「Apache License 2.0」です。
詳細について、こちらを参照ください。
→GitHub →apache/spark →LICENSE
Apache Sparkは「Windows」「Linux」「macOS」で動作します。
→Apache Spark →Download Apache Spark
Apache Sparkは、1000を超える組織やプロジェクトで採用されています。
→Apache Spark →Project and Product names using "Spark"
同様な機能を提供する製品として、次のようなものがあります。
オープンソース製品:「Apache Hadoop」「Apache Storm」など。
オープンソースのビッグデータ処理ソフトウエア「Apache Spark」をディープラーニング(深層学習)対応させる動きが活発化している点について解説。 【Apache Sparkとは】 インメモリ高速分散処理プラットフォーム https://www.ossnews.jp/oss_info/Apache_Spark 【テーマ】 ・SQLクエリーで深層学習 ・様々なSparkアプリ...
OSS×Cloud ACCESS RANKING