オープンソースのビッグデータ処理ツール / Apache Sparkとは / Sparkライブラリ

Sparkライブラリ

Apache Sparkには、以下の高度なライブラリが含まれており、別途インストールせずに利用できます。

これらのライブラリをシームレスに組み合わせて、アプリケーションを構築できます。

■SQLクエリ「Spark SQL」

Spark SQLは構造化データを扱うための機能を提供します。

→Apache Spark　→Spark SQL

Spark統合

Spark SQLを使用すると、SQLまたはDataFrame APIを使用して、Sparkプログラム内で構造化データをクエリできます。

データアクセス

さまざまなデータソースにアクセスするための共通の方法を提供し、これらのソース間でのデータ結合も可能です。
・Hive---Hiveデータウェアハウス
・ORC
・JSON
・ODBC
・JDBC　など

高速クエリ

Spark SQLは「コストベースオプティマイザ」「カラム型ストレージ」「コード生成」などの機能により、高速にクエリを実行できます。

フォールトトレランス

Sparkエンジンを使用して「数千ノード」と「数時間に及ぶクエリ」に拡張可能で、クエリ途中でのフォールトトレランスを実現しています。

■機械学習ライブラリ「MLlib」

MLlibはApache Sparkのスケーラブルな機械学習ライブラリです。

→Apache Spark　→MLlib

Hadoopサポート

Hadoopワークフローに簡単にプラグインできます。

ハイパフォーマンス

MLlibはMapReduceよりも100倍高速に処理できます。

アルゴリズム

MLlibには多くのアルゴリズムが含まれています。
・分類---ロジスティック回帰、単純ベイズ
・回帰---一般化線形回帰、生存回帰
・デシジョンツリー、ランダムフォレスト
・クラスタリング---K平均、ガウス混合(GMM)
・トピックモデリング---潜在的ディリクレ配分(LDA)　など

ユーティリティ

各種ユーティリティも用意されています。
・特徴変換---標準化、正規化、ハッシング
・MLパイプライン建設
・モデル評価とハイパーパラメータチューニング
・MLの永続性---モデルとパイプラインの保存と読み込み　など

→Apache Spark　→Machine Learning Library (MLlib) Guide

■グラフ並列計算用API「GraphX」

GraphXは、グラフおよびグラフ並列計算用のApache Spark APIです。

→Apache Spark　→GraphX

柔軟性

GraphXは「ETL」「探索的分析」「反復グラフ計算」を単一システム内に統合します。

高速処理

GraphXは、最速の特殊グラフ処理システムに匹敵する処理性能を提供します。

グラフアルゴリズム

GraphXにはさまざまなグラフアルゴリズムが付属しています。
・PageRank
・接続コンポーネント
・ラベル伝播
・SVD ++
・強連結コンポーネント
・トライアングルカウント　など

■ストリーム処理「Spark Streaming」

Spark Streamingを使用すると、スケーラブルなフォールトトレラントストリーミングアプリケーションを簡単に構築できます。

→Apache Spark　→Spark Streaming

ストリーミングジョブ作成

Spark Streamingは、Apache Sparkの言語統合APIをストリーム処理に利用できるため、バッチジョブ記述と同じ方法でストリーミングジョブを記述できます。

「Java」「Scala」「Python」をサポートしています。

データソース

Spark Streamingは「HDFS」「Flume」「Kafka」「Twitter」「ZeroMQ」などからデータを読み込むことができます。

また、独自カスタムデータソースも定義できます。

参考元サイト

※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。

Apache Spark最新TOPICS

【OSS】ビッグデータ処理ソフトウエア「Apache Spark」、ディープラーニング(深層学習)対応させる動きが活発化---SQLクエリで深層学習、様々なSparkアプリケーションに深層学習を取り込む（2017年08月14日 11:03）

オープンソースのビッグデータ処理ソフトウエア「Apache Spark」をディープラーニング(深層学習)対応させる動きが活発化している点について解説。【Apache Sparkとは】インメモリ高速分散処理プラットフォーム https://www.ossnews.jp/oss_info/Apache_Spark 【テーマ】・SQLクエリーで深層学習・様々なSparkアプリ...

【OSS】Yahoo、「TensorFlowOnSpark」をオープンソース公開---大規模クラスタディープラーニングモデルを作成（2017年02月15日 11:03）
【OSS】2017年の「Apache Spark」---「Project Tungsten」「DataFrame/Dataset」（2017年01月04日 11:03）
【OSS解説】「Apache Spark」×「Amazon EMR」、簡単な機械学習のSparkアプリケーションを作成しAmazonEMRで実行（2016年10月04日 10:03）
【OSS解説】「Apache Spark」解説---Sparkとは何か？なぜ生まれたのか？Hadoopとの違いは？（2016年08月29日 10:03）

Apache Sparkの最新TOPICS一覧はこちら

Sparkライブラリ

Sparkライブラリとして、「SQLクエリ：Spark SQL」「機械学習ライブラリ：MLlib」「グラフ並列計算用API：GraphX」「ストリーム処理：Spark Streaming」について紹介。

■関連する比較ページ

Sparkライブラリ

■SQLクエリ「Spark SQL」

Spark統合

データアクセス

高速クエリ

フォールトトレランス

■機械学習ライブラリ「MLlib」

Hadoopサポート

ハイパフォーマンス

アルゴリズム

ユーティリティ

■グラフ並列計算用API「GraphX」

柔軟性

高速処理

グラフアルゴリズム

■ストリーム処理「Spark Streaming」

ストリーミングジョブ作成

データソース

Apache Spark最新TOPICS

【OSS】ビッグデータ処理ソフトウエア「Apache Spark」、ディープラーニング(深層学習)対応させる動きが活発化---SQLクエリで深層学習、様々なSparkアプリケーションに深層学習を取り込む（2017年08月14日 11:03）

Apache Spark最新CLOSEUPコラム

イベント情報

セミナー講演資料