H2O(エイチツーオー)とは、オープンソースの分散型インメモリマシン機械学習プラットフォームです。
H2Oは、ビッグデータに基づいて機械学習モデルを構築し、エンタープライズ環境でこれらのモデルを構築できる機械学習および予測分析プラットフォームです。
H2Oは「インメモリ高速処理」「分散型」「スケーラブル」の特徴を持ち、単一プラットフォームでオンラインのスコアリングとモデリングを可能にします。優れた予測モデリングにより、データからすばやく洞察を導き出すことができます。
2011年 初版リリース
H2Oはさまざまな機械学習用途に利用できます。
・高度な分析処理
・不正検出
・クレーム管理
・デジタル広告 など
H2Oのライセンスは「Apache License 2.0」です。
詳細について、こちらを参照ください。
→GitHub →h2oai / h2o-3 →LICENSE
H2Oは「ビッグデータインフラストラクチャ」「ベアメタル」「Hadoopクラスタ」「Sparkクラスタ」などで動作します。
対応OS
・Windows
・OS X
・Ubuntu
・RHEL
・CentOS など
H2Oプラットフォームは世界中で14000を超える組織で使用されており、R言語コミュニティやPythonコミュニティの両方で高い人気を保持しています。
同様な機能を提供する製品として、次のようなものがあります。
オープンソース製品:「TensorFlow」「Chainer」「Keras」など。
H2Oの内部では「分散キー/値ストア」を使用して、すべてのノードやマシンにわたって「データ」「モデル」「オブジェクト」などにアクセスし参照します。
H2Oは大量データセットをサポートするため「分散システム」「インメモリコンピューティング」「ノードとクラスタ間の高速シリアル化」などの技術を利用して、きめ細かいインメモリマップ縮小を利用する並列アルゴリズムを使用して機械学習を加速させます。
H2Oは広く使用されている統計および機械学習アルゴリズムをサポートしています。
・ディープラーニング
・GBM(グラジエントブーストマシン)
・GLM(一般化線形モデル)
・DRF(分散ランダムフォレスト)
・Word2Vec など
H2Oは「POJO(Plain Old Java Object)」および「MOJO」を使用して、モデルを迅速かつ簡単にプロダクションに展開できます。
H2Oのデータパーサーには、受信データセットのスキーマを推測するためのインテリジェンスが組み込まれており、さまざまな形式の複数のソースからのデータ取り込みをサポートしています。
・HDFS
・Spark
・S3
・Azure Data Lake など
H2O Flowは、H2O用のノートブックスタイルのオープンソースユーザーインターフェースです。
iPython Notebookと同様に「コード実行」「テキスト」「数学」「プロット」「リッチメディア」などを1つのドキュメントにまとめることができるWebベースの対話型環境です。
→H2O →Docs →Using Flow - H2O’s Web UI
H2OにはAutoML機能もあり、ユーザーが指定した制限時間内に多くのモデルの自動トレーニングおよび調整が可能です。
機械学習ワークフローの自動化に使用できます。
参考元サイト
※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。
OSS×Cloud ACCESS RANKING