【OSS】分析データベース「JuliaDB」---Julia言語でクエリ作成、高速並列処理、高速CSVパーサー

OSS×クラウド最新TOPICS　2020年9月14日 10:20

「JuliaDB」とは

JuliaDBは、大規模永続データセットを操作するためのパッケージで、優れたパフォーマンスを発揮する分析データベース機能を提供する。

「Julia言語」をベースに構築されており、Pandasなどの同様プロダクトと比較しても、優れた機能を利用できる。

「the MIT "Expat" License」で提供されている。

→juliadb.org

→github.com　→JuliaData/JuliaDB.jl

主な特徴

①ジャストインタイムコンパイル

JuliaDBは、Juliaのジャストインタイムコンパイラを利用して、高速なテーブル操作を実行できる。

②並列計算「OnlineStats」

JuliaDBは、人気のある統計パッケージ「OnlineStats」とシームレスに統合し、データを並行して処理できる。

メモリに収まらないストリーミングやビッグデータを処理できる利点がある。

「Julia固有の高速性」と「並列処理サポート」により、JuliaDBは高いパフォーマンスを発揮できる。

③任意のデータ型保存

JuliaDBは「文字列」「日付」「Float64」「ユーザー定義Juliaデータ型」などをサポートしている。

④高速ユーザー定義関数

JuliaDBはJuliaで実装されているため、Julia言語の広大なエコシステムを使用してクエリを作成でき、ユーザー定義関数はJITコンパイルされる。

⑤高速CSVパーサー

JuliaDBの高速CSVパーサーにより、非常に高速にCSVを読み込める。

複数CSVファイルを同時に読み取って、単一テーブルを作成できる。

以上、下記URLからの要約
https://www.opensourceforu.com/2020/09/juliadb-an-analytical-database-that-performs-better-than-its-counterparts/

続きを読む（情報ソースのページに移動する）

【講演資料を公開】11/15データ活用におけるクレンジングの課題〜「データ連携ツールを使っても非エンジニアには負担」の解決策〜（12月15日 09:15）

2022-11-15（火）13:00 - 13:55 「データ活用におけるクレンジングの課題〜「データ連携ツールを使っても非エンジニアには負担」の解決策〜」と題したウェビナーが開催されました。皆様のご参加、誠にありがとうございました。 **当日の資料は**以下から無料でご覧いただけます。ご興味のある企業さま、ぜひご覧ください。

PostgreSQLに対応！テレワークの情報共有にも最適なオープンソースのWebデータベース「プリザンター」がバージョンアップ(2020年08月02日 )

ウィズコロナ時代に顧客エンゲージメントを築くための5つの方針(2020年07月16日 )

Zoomへのネットワーク接続を最適化する方法(2020年07月15日 )

【セミナーサマリ】「Azure DevOps」紹介---Azure DevOps + Git による開発方法(2020年01月30日 )

Zabbixのダッシュボードからネットワーク輻輳の詳細な原因を調査する方法～ZabbixのダッシュボードからNetFlowのデータを解析する～(2019年12月11日 )

Octosuite(オクトスイート)

その他

「Octosuite」(オクトスイート)とは、高度な「GitHubフレームワーク」です。「GitHubパブリックAPI」を使用して、GitHubプラットフォーム上の「ユーザーアカウント」「リポジトリ」「組織」などのオープンソースインテリジェンスを効率的に収集できます。また、「再現可能な一連のクエリ」を作成して自動化できます。

HeidiSQL(ハイディ/ヘイディ/ハイジ)

その他

「HeidiSQL」(ハイディ/ヘイディ/ハイジ)とは、「データベース管理」および「データモデリング」を実施可能な軽量クライアントツールです。Delphiで記述されWindows環境で動作します。「MariaDB」と「MySQL」のツールに属しています。

Theano(テアノ)

AI・人工知能

Theano(テアノ)とは、Python用数値計算ライブラリです。「コンピュータ代数システム」と「最適化コンパイラ」の機能を有しており、多次元配列を含む数式について「定義」「最適化」「評価」が可能です。ディープラーニング計算処理でよく利用されています。

Apache Superset(アパッチスーパーセット)

BIツール

Apache Superset(アパッチスーパーセット)とは、最新エンタープライズ対応の「ビジネスインテリジェンスWebアプリケーション」です。「軽量」「高拡張性」「直感的」を特徴としており、「シンプルな円グラフ」から「詳細な地理空間チャート」まで、さまざまなデータ探索や視覚化が可能です。

Torch(トーチ)

AI・人工知能

Torch(トーチ)とは、「機械学習ライブラリ」および「科学計算フレームワーク」です。GPUを活用する機械学習のための幅広いアルゴリズムを提供します。「ディープラーニング」や「コンボリューショナルネット」などのニューラルネットワーク技術に特化しており、「シンプルプロセス」「最大限の柔軟性とスピード」などを特徴としています。

Metabase(メタベース)

BIツール

Metabase(メタベース)とは、オープンソースのデータ可視化ツールです。シンプルかつ強力なビジネスインテリジェンスツールとして、さまざまなデータ表現形式による意思決定サポートのための知見を得られます。特別な技術的スキルを必要とせずに利用できるため、ビジネス現場ですぐに利用できます。

Adminer(アドミナー)

その他

Adminer(アドミナー)とは、PHPで記述されたフル機能のデータベース管理ツールです。同様な機能を提供する「phpMyAdmin」とは異なり、ターゲットサーバにデプロイする準備ができている単一ファイルで構成されます。主要データベースをサポートし、豊富なプラグイン機能も用意されています。

Microsoft Cognitive Toolkit(マイクロソフトコグニティブツールキット)

AI・人工知能

Microsoft Cognitive Toolkit(CNTK)(マイクロソフトコグニティブツールキット)とは、Microsoftが提供するオープンソースの「統合ディープラーニングツールキット」です。※CNTKは消極的開発段階に入っており、「ONNX」の利用が推奨されています。

Jaspersoft(ジャスパーソフト)

BIツール

Jaspersoft(ジャスパーソフト)とは、オープンソースのビジネスインテリジェンス(BI)ツールです。複数のコンポーネントで構成されており、高機能BIレポーティングツールとして、高度にインタラクティブなレポートを作成できます。Webやモバイルアプリケーションに組み込める分析機能なども提供します。

Apache Storm(アパッチストーム)

ストリームデータ処理

Apache Storm(アパッチストーム)とは、オープンソースのビッグデータ処理フレームワークです。耐障害性に優れており、分散型によるニアリアルタイム高速処理を実現します。「不正検出」「クリックストリーム分析」「大量IoTデバイス監視」「ソーシャル分析」「ネットワーク監視」などのリアルタイム性が要求される用途に適しています。

Apache NiFi(アパッチナイファイ)

BIツール

Apache NiFi(アパッチナイファイ)とは、データフローオーケストレーションツールです。Webインターフェースでシステム間のデータフロー自動化定義を実施し、フローベースプログラミングコンセプトでのデータ処理(配信)システムを構築できます。データフロー管理自動化のための「IoTデータフローを見据えた双方向性」を特徴としています。

Apache Solr(アパッチソーラー)

検索エンジン

Apache Solr(アパッチソーラー)とは、オープンソースエンタープライズ検索プラットフォームです。ApacheLucene上に構築されており、「高速処理」「高信頼性」「拡張性」「分散インデックス作成機能」「負荷分散クエリ機能」「自動フェイルオーバー機能」などの特徴があります。

Pentaho Data Integration(ペンタホデータインテグレーション)

Pentaho Data Integration(ペンタホデータインテグレーション)はETLツールです。革新的なメタデータ駆動型アプローチを使用して、強力な「データ抽出」「データ変換」「データ読み込み」などを実行できます。開発経緯から「Kettle」とも呼ばれます。

Apache Spark(アパッチスパーク)

ビッグデータ処理ツール

Apache Spark(アパッチスパーク)とは、インメモリ高速分散処理プラットフォームで、大規模データ処理用統合分析機能を提供します。「高速」かつ「汎用的」であることを目標に設計されています。Java派生言語「Scala」で実装されており、各種高機能ライブラリを搭載しています。

MXNet(エムエックスネット)

AI・人工知能

MXNet(エムエックスネット)とは、フル機能のディープラーニングフレームワークです。最先端のディープラーニング技術「畳み込みニューラルネットワーク(CNN)」「長短期メモリネットワーク(LSTM)」などをサポートしており、AWSが公式サポートを表明したことで大きな注目を集めています。

Jupyter Notebook(ジュピターノートブック)

ビッグデータ処理ツール

Jupyter Notebook(ジュピターノートブック)とは、インタラクティブコンピューティング用Webベースノートブック環境です。ノートブック形式で段階的にプログラムを実行し、データ分析作業を行える対話型ブラウザ実行環境として利用できます。

Pentaho(ペンタホ)

BIツール

Pentaho(ペンタホ)とは、BI(Business Intelligence)に必要なすべての機能が用意されているプロフェッショナル向けのオープンソースBIスイート製品です。「ETL」「OLAP」「クエリ」「レポーティング」「インタラクティブ分析」「ダッシュボード」「データマイニング」など、データ統合から分析までを一貫して実施できます。

RapidMiner Studio(ラピッドマイナースタジオ)

BIツール

RapidMiner Studio(ラピッドマイナースタジオ)とは、ビジュアルデータサイエンスワークフローデザイナーです。「機械学習」「データマイニング」「テキストマイニング」「特徴選択」「予測分析」などのさまざまなデータ分析処理をプログラミングなしで実施できます。

scikit-learn(サイキットラーン)

AI・人工知能

scikit-learn(サイキットラーン)とは、Pythonのオープンソース機械学習ライブラリです。機械学習アルゴリズムを幅広くサポートしており、「分類回帰クラスタ分析」「ニューラルネットワーク」「サポートベクターマシン」「ランダムフォレスト」「k近傍法」などを手軽に実装できます。

Enigma(エニグマ)

FinTech系ツール

Enigma(エニグマ)とはブロックチェーンタイプの分散型計算プロトコルです。「シークレットコントラクト」を可能にする分散ネットワーク構築が可能で、Enigmaネットワーク内の「シークレットノード」が暗号化データに対して安全に計算を実行できます。

Elasticsearch(エラスティックサーチ)

検索エンジン

Elasticsearch(エラスティックサーチ)とは、全文検索エンジンです。マルチテナント、スキーマレスでクラウドに最適化されています。HTTP WebインターフェースとスキーマフリーのJSONドキュメントを備えており、さまざまなユースケースに対応できる分散型RESTful検索が可能です。

Kibana(キバナ)

BIツール

Kibana(キバナ)とは、全文検索エンジン「Elasticsearch」と連携して使用するデータ解析/可視化プラットフォームです。データ分析および検索ダッシュボードで、全文検索エンジン「Elasticsearch」用のオープンソースのデータ視覚化プラグインとして機能します。

Chainer(チェイナー)

AI・人工知能

Chainer(チェイナー)とは、日本製の深層学習フレームワークです。ニューラルネットワークを誤差伝播で学習するライブラリで、Pythonで柔軟に記述し学習させることができます。特徴として「柔軟性」「直感的」「高機能」の3つを掲げています。

Apache Kafka(アパッチカフカ)

ビッグデータ処理ツール

Apache Kafka(アパッチカフカ)とは、分散ストリーミングプラットフォームです。「Pull型」「高スループット」などの特徴があり、ストリーミングデータパイプライン構築に利用できます。分散環境において「高スループット」かつ「低レイテンシ」で、大規模データを高速に取り込み配信できるメッセージングシステムです。

Caffe(カフェ)

AI・人工知能

Caffe(カフェ)とは、オープンソースのディープラーニングライブラリです。画像認識に特化しており、「高速動作」「GPU対応」「洗練されたアーキテクチャ/ソースコード」「開発コミュニティが活発」などの特徴があります。C++/Python/MATLABなどで使用できます。

Apache Hadoop(アパッチハドゥープ)

ビッグデータ処理ツール

Apache Hadoop(アパッチハドゥープ)とは、オープンソース大規模データ分散処理フレームワークです。「データ処理基盤」と「分散コンピューティング基盤」という2つの特徴を持つフレームワークとして大規模データを効率的に分散処理および管理できます。

Orange(オレンジ)

BIツール

Orange(オレンジ)とはデータマイニングソフトウェアです。初心者から専門家までのニーズに対応できる対話型データ分析ワークフローとして利用できます。「探索的なデータ分析」と「対話的なデータ視覚化」のためのビジュアルプログラミングフロントエンドを特徴としています。

TensorFlow(テンソルフロー)

AI・人工知能

TensorFlow(テンソルフロー)とは、Googleの機械学習/ディープラーニング/多層ニューラルネットワークライブラリです。データフローグラフを使用したライブラリで複雑なネットワークを分かりやすく記述できます。高い汎用性により研究レベルから実プロダクトにまで活用できます。

NGT(エヌジーティー)

ビッグデータ処理ツール

NGT(Neighborhood Graph and Tree for Indexing)とは、高次元ベクトルデータ高速検索技術です。ビッグデータ分析/ディープラーニング領域に活用できる技術として注目されています。

Presto(プレスト)

データベース

Presto(プレスト)とは、分析クエリ実行用分散型SQLクエリエンジンです。

Catalyst(カタリスト)

FinTech系ツール

Catalyst(カタリスト)とは、暗号通貨トレーディングアルゴリズムライブラリです。

Hyperledger(ハイパーレッジャー)

FinTech系ツール

Hyperledger(ハイパーレッジャー)とは、オープンソース「ブロックチェーン技術推進コミュニティー」です。「Linux Foundation」が中心となり、世界30以上の先進的IT企業が協力して、ブロックチェーン技術/P2P分散レッジャー技術の確立を目指しています。

Pylearn2(パイラーンツー)

AI・人工知能

Pylearn2(パイラーンツー)とは、数値計算ライブラリ「Theano」ベースのオープンソースディープラーニングライブラリです。

H2O(エイチツーオー)

AI・人工知能

H2O(エイチツーオー)とは、オープンソースの分散型インメモリマシン機械学習プラットフォームです。

Eclipse Deeplearning4j(イクリプスディープラーニングフォージェイ)

AI・人工知能

Eclipse Deeplearning4j(イクリプスディープラーニングフォージェイ)とは分散型深層学習ライブラリです。「Java」「JVM(Java仮想マシン)」「各種アルゴリズム」をサポートします。

Keras(ケラス)

AI・人工知能

Keras(ケラス)とは、Python実装の高水準ニューラルネットワークライブラリです。「TensorFlow」「Microsoft Cognitive Toolkit」「Theano」上で実行できます。

Talend Open Studio(タレンドオープンスタジオ)

Talend Open Studio(タレンドオープンスタジオ)とは、ELTビジュアル開発ツール群です。コードを記述せずにETLプロセスを作成できる点が特徴です。

Pravega(プラベガ)

ストリームデータ処理

Pravega(プラベガ)とは、オープンソースの分散ストレージサービスです。連続した無制限のデータに対してストレージ抽象化を行う、分散コンピューティングコーディネーションフレームワークです。

Fess(フェス)

検索エンジン

Fess(フェス)とは、Javaベースの全文検索サーバです。検索エンジンとして「Elasticsearch」を利用します。「5分で簡単に構築可能」な導入容易性が特徴です。

Schema Registry(スキーマレジストリ)

ビッグデータ処理ツール

Schema Registry(スキーマレジストリ)とは、メッセージングシステム「Apache Kafka」ベースのストリームデータ基盤「Confluent Platform」の1コンポーネントです。一元的なスキーマ管理機能を提供します。

Apache Flink(アパッチフリンク)

ストリームデータ処理

Apache Flink(アパッチフリンク)。分散ストリーム処理プラットフォームです。バッチ処理にも対応し、耐障害性/拡張性を備えたストリーム処理基盤です。

Apache Nutch(アパッチナッチ)

ビッグデータ処理ツール

Apache Nutch(アパッチナッチ)。オープンソースのWebクローラフレームワークです。Apache Hadoopによる拡張性が特徴です。

DSSTNE(デスティニー)

AI・人工知能

DSSTNE(デスティニー)。ディープラーニングライブラリです。Amazonがオープンソース公開したもので、スパース(疎)データに強いという特徴があります。

Apache Drill(アパッチドリル)

ビッグデータ処理ツール

Apache Drill(アパッチドリル)。ビッグデータに対応するスキーマフリーSQLクエリエンジンです。構造化データ/非構造化データなどのさまざまなデータソースに対して、直接SQLクエリを実行して結果を得ることができます。

Norikra(ノリクラ)

ストリームデータ処理

Norikra(ノリクラ)。ストリームデータ処理エンジンです。リアルタイムイベントストリームデータに対して、SQLライク言語でスキーマレスなデータ処理が可能です。手軽に利用できる点が特徴です。

Apache Lucene(アパッチルシーン)

検索エンジン

Apache Lucene(アパッチルシーン)。高性能/高機能/極めてスケーラブルなオープンソース全文検索エンジンライブラリです。

Apache ManifoldCF(アパッチマニフォールドシーエフ)

ビッグデータ処理ツール

Apache ManifoldCF(アパッチマニフォールドシーエフ)。オープンソースクローラフレームワークです。インターネット上やイントラネット内のさまざまなサーバに保管されているドキュメントコンテンツ(Webページ/文書ファイル/DBデータなど)を収集し、それを検索エンジンに送ります。

OpenOLAP(オープンオーラップ)

BIツール

OpenOLAP（オープンオーラップ）。PostgreSQLを利用した、多次元データベース(OLAP)システム

Eclipse BIRT(エクリプス　バート)

BIツール

Eclipse BIRT（エクリプス　バート）。BIRTとは、Business Intelligence and Reportting Toolsの頭文字。Eclipse上で利用できるレポート開発環境

OSS×Cloud ACCESS RANKING

facebook

twitter

@OSS_News からのツイート