Sparkライブラリとして、「SQLクエリ:Spark SQL」「機械学習ライブラリ:MLlib」「グラフ並列計算用API:GraphX」「ストリーム処理:Spark Streaming」について紹介。

Sparkライブラリ

Sparkライブラリとして、「SQLクエリ:Spark SQL」「機械学習ライブラリ:MLlib」「グラフ並列計算用API:GraphX」「ストリーム処理:Spark Streaming」について紹介。

■関連する比較ページ

Sparkライブラリ

Apache Sparkには、以下の高度なライブラリが含まれており、別途インストールせずに利用できます。

これらのライブラリをシームレスに組み合わせて、アプリケーションを構築できます。

■SQLクエリ「Spark SQL」

Spark SQLは構造化データを扱うための機能を提供します。

→Apache Spark →Spark SQL

Spark統合

Spark SQLを使用すると、SQLまたはDataFrame APIを使用して、Sparkプログラム内で構造化データをクエリできます。

データアクセス

さまざまなデータソースにアクセスするための共通の方法を提供し、これらのソース間でのデータ結合も可能です。
・Hive---Hiveデータウェアハウス
・ORC
・JSON
・ODBC
・JDBC など

高速クエリ

Spark SQLは「コストベースオプティマイザ」「カラム型ストレージ」「コード生成」などの機能により、高速にクエリを実行できます。

フォールトトレランス

Sparkエンジンを使用して「数千ノード」と「数時間に及ぶクエリ」に拡張可能で、クエリ途中でのフォールトトレランスを実現しています。

■機械学習ライブラリ「MLlib」

MLlibはApache Sparkのスケーラブルな機械学習ライブラリです。

→Apache Spark →MLlib

Hadoopサポート

Hadoopワークフローに簡単にプラグインできます。

ハイパフォーマンス

MLlibはMapReduceよりも100倍高速に処理できます。

アルゴリズム

MLlibには多くのアルゴリズムが含まれています。
・分類---ロジスティック回帰、単純ベイズ
・回帰---一般化線形回帰、生存回帰
・デシジョンツリー、ランダムフォレスト
・クラスタリング---K平均、ガウス混合(GMM)
・トピックモデリング---潜在的ディリクレ配分(LDA) など

ユーティリティ

各種ユーティリティも用意されています。
・特徴変換---標準化、正規化、ハッシング
・MLパイプライン建設
・モデル評価とハイパーパラメータチューニング
・MLの永続性---モデルとパイプラインの保存と読み込み など

→Apache Spark →Machine Learning Library (MLlib) Guide

■グラフ並列計算用API「GraphX」

GraphXは、グラフおよびグラフ並列計算用のApache Spark APIです。

→Apache Spark →GraphX

柔軟性

GraphXは「ETL」「探索的分析」「反復グラフ計算」を単一システム内に統合します。

高速処理

GraphXは、最速の特殊グラフ処理システムに匹敵する処理性能を提供します。

グラフアルゴリズム

GraphXにはさまざまなグラフアルゴリズムが付属しています。
・PageRank
・接続コンポーネント
・ラベル伝播
・SVD ++
・強連結コンポーネント
・トライアングルカウント など

■ストリーム処理「Spark Streaming」

Spark Streamingを使用すると、スケーラブルなフォールトトレラントストリーミングアプリケーションを簡単に構築できます。

→Apache Spark →Spark Streaming

ストリーミングジョブ作成

Spark Streamingは、Apache Sparkの言語統合APIをストリーム処理に利用できるため、バッチジョブ記述と同じ方法でストリーミングジョブを記述できます。

「Java」「Scala」「Python」をサポートしています。

データソース

Spark Streamingは「HDFS」「Flume」「Kafka」「Twitter」「ZeroMQ」などからデータを読み込むことができます。

また、独自カスタムデータソースも定義できます。

 

参考元サイト

※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。

Apache Spark最新TOPICS

【OSS】ビッグデータ処理ソフトウエア「Apache Spark」、ディープラーニング(深層学習)対応させる動きが活発化---SQLクエリで深層学習、様々なSparkアプリケーションに深層学習を取り込む(2017年08月14日 11:03)

オープンソースのビッグデータ処理ソフトウエア「Apache Spark」をディープラーニング(深層学習)対応させる動きが活発化している点について解説。 【Apache Sparkとは】 インメモリ高速分散処理プラットフォーム https://www.ossnews.jp/oss_info/Apache_Spark 【テーマ】 ・SQLクエリーで深層学習 ・様々なSparkアプリ...

Apache Spark最新CLOSEUPコラム

イベント情報

セミナー講演資料

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

注目のDB技術「HTAP」とは? ~手軽に、かつ高速に、リアルタイム分析を実現する方法~

上からも下からもプレッシャー中間管理職の「悩み」をデータの視点で解決 〜タイムリーなデータ活用、円滑な状況共有を導く分かりやすいデータストーリーとは〜

データ活用におけるクレンジングの課題 〜「データ連携ツールを使っても非エンジニアには負担」の解決策〜

  • オープソース書籍(サイド)
  • OSSNEWSに広告を掲載しませんか?

facebook

twitter