OSS×クラウド最新TOPICS 2018年9月19日 14:43
機械学習データマイニングライブラリ「Apache Mahout」について紹介。
Apache Mahoutは、機械学習アルゴリズムのスケーラブルライブラリ構築用オープンソースプロジェクト。(Apache 2.0 Licence)
MahoutフレームワークはHadoopと緊密に連携している。そのため、Apache Hadoopライブラリを使用して優れたスケーラビリティを提供する。
クラウド内で拡張する分散環境において、大量データをマイニングする大規模機械学習アルゴリズム作成に適している。Mahoutアプリケーションは、データをより迅速かつ効率的に分析できる。
・Apache Luceneのサブプロジェクトとしてスタート
・2010年、Apacheトップレベルプロジェクトに昇格
Apache Mahoutは、「Facebook」「Twitter」「LinkedIn」「Adobe」「Yahoo!」などの大企業で導入されている実績がある。
レコメンドエンジンは、ユーザーベースまたはアイテムベースで分類できる。
AmazonとFacebookはこの機能を使用してユーザーに対するレコメンドを実施している。
クラスタリング機能は、シンプルワードで同様の性質のオブジェクトをグループ化し、類似点を共有するクラスタを作成する。
クラスタリングは「K-Means」「Fuzzy K-Means」「Mean Shift」「Canopy」「Dirichlet Classification」などのアルゴリズムをサポートしている。
分類技法は、ある種のものにふさわしいものかどうかを判断する。
同じグループ内のアイテム特徴が比較され、その特徴に基づいて新しいオブジェクトのタイプを予測できる。
Facebookでは、顔検出とスパムチェッカーで、この手法を使用している。
以上、下記URLからの要約
https://opensourceforu.com/2018/09/why-the-apache-mahout-framework-is-so-popular/
この作品は クリエイティブ・コモンズ 表示 - 非営利 4.0 国際 ライセンスの下に提供されています。
Manifoldとは Manifoldは、エンジニアや科学者が、MLデータスライスとモデル全体のパフォーマンス問題を特定し、データのサブセット間の機能分布の違いを明らかにすることで根本原因を診断するのに役立つデバッグツール。 「Apache License 2.0」で提供されている。
OSS×Cloud ACCESS RANKING